Cómo evaluar la calidad de un asistente de IA en una correduría: métricas de éxito, tests y feedback de usuarios

by Enrique Sobrino, Consultor IA para corredurías

Cómo evaluar la calidad de un asistente de IA en una correduría: métricas de éxito, tests y feedback de usuarios

Los asistentes de IA en una correduría no son productos que se entregan y funcionan: son sistemas que evolucionan con el uso y que requieren evaluación continua para no degradarse. Sin un mecanismo de evaluación serio, un asistente que en su primer mes funcionaba bien puede al sexto estar produciendo respuestas mediocres sin que nadie se entere, hasta que un cliente o un compañero detecte un fallo grave.

Evaluar la calidad de un asistente no es complicado, pero requiere disciplina. Este artículo plantea un sistema sencillo y replicable para evaluar asistentes de IA en una correduría —de FAQs, internos, RAG sobre condicionados, agentes orquestadores— de forma que la calidad se mantenga y mejore con el tiempo.

Por qué la evaluación es difícil sin sistema

Algunos motivos por los que muchas corredurías no evalúan bien sus asistentes:

  • No saben qué medir. Más allá de "número de consultas".
  • Comparan percepción con datos. Si nadie se queja, asumen que funciona.
  • No tienen baseline. No saben si el sistema ha mejorado o empeorado respecto al inicio.
  • No involucran a los usuarios. Las personas que usan el asistente día a día son la mejor fuente de feedback y se les pregunta poco.
  • No actualizan. Los criterios de calidad de hoy son distintos de los de hace seis meses.

Un sistema sencillo de evaluación resuelve la mayoría de estos problemas.

Las cuatro dimensiones de calidad

Un asistente de IA en una correduría se evalúa típicamente en cuatro dimensiones:

Dimensión 1 — Precisión

¿La respuesta es correcta? Este es el criterio fundamental, especialmente en asistentes que tratan temas técnicos (cobertura, normativa, procedimientos).

Métricas:

  • Porcentaje de respuestas correctas (verificadas con un humano experto).
  • Errores graves detectados (información incorrecta con consecuencias).
  • Errores menores (información imprecisa pero sin consecuencias importantes).

Dimensión 2 — Utilidad

¿La respuesta resuelve la necesidad del usuario? Una respuesta puede ser técnicamente correcta pero no útil (demasiado genérica, demasiado larga, no responde a lo que se preguntaba).

Métricas:

  • Porcentaje de consultas resueltas sin necesidad de derivar.
  • Tiempo medio de resolución.
  • Reformulaciones por parte del usuario (síntoma de respuesta no útil).

Dimensión 3 — Tono y coherencia

¿La respuesta tiene el tono adecuado? ¿Es coherente con la voz de la correduría? ¿Mantiene la profesionalidad?

Métricas:

  • Revisión cualitativa periódica de muestras.
  • Quejas o comentarios sobre tono.
  • Consistencia entre respuestas similares.

Dimensión 4 — Seguridad

¿El asistente respeta los límites? ¿No comunica información indebida? ¿Mantiene el cumplimiento?

Métricas:

  • Casos detectados de salida fuera de alcance.
  • Información sensible mencionada incorrectamente.
  • Decisiones automatizadas cuando deberían ser humanas.

Las cuatro dimensiones son necesarias. Un asistente con alta precisión pero baja utilidad fracasa por aburrimiento. Uno con alta utilidad pero baja precisión fracasa por riesgo.

Métodos de evaluación

Tests automatizados

Un conjunto de preguntas de referencia con respuestas esperadas. El sistema se evalúa periódicamente con estas preguntas y se mide cuántas responde correctamente. Conviene tener:

  • Tests de preguntas frecuentes (que el asistente debería resolver).
  • Tests de preguntas trampa (donde la respuesta correcta es "no lo sé" o "consulta a un humano").
  • Tests de preguntas con contexto (que requieren acceso a datos del cliente).

Los tests deben actualizarse cada cierto tiempo para reflejar nuevos casos.

Revisión humana de muestras

Cada semana o mes, alguien del equipo revisa una muestra aleatoria de interacciones reales (con datos anonimizados si toca) y las califica:

  • Correcta o no.
  • Útil o no.
  • Tono adecuado o no.
  • Seguridad respetada o no.

Esta revisión es lenta pero detecta problemas que los tests automatizados no ven.

Feedback directo del usuario

Tras cada interacción, dar al usuario la opción de calificar (pulgar arriba/abajo o estrellas) y, opcionalmente, dejar comentario. Métricas:

  • Porcentaje de interacciones calificadas positivamente.
  • Comentarios negativos (analizados cualitativamente).
  • Tendencia mes a mes.

Encuestas periódicas al equipo

Si el asistente es interno, una encuesta corta cada trimestre al equipo:

  • ¿Lo usas? ¿Cuánto?
  • ¿Es útil?
  • ¿Qué te frustra?
  • ¿Qué falta?

Esta encuesta produce información cualitativa muy valiosa.

Análisis de incidentes

Cualquier problema serio (cliente molesto, información incorrecta detectada, queja) se registra, se analiza y se traduce en mejora del sistema.

El proceso recomendado

Una rutina de evaluación que funciona en corredurías reales:

Semanal

  • Revisión de tests automatizados (tarda minutos si están bien configurados).
  • Revisión de muestra pequeña (5-10 interacciones reales).
  • Captura de incidentes ocurridos.

Mensual

  • Revisión completa de métricas.
  • Análisis de feedback de usuarios.
  • Identificación de patrones a mejorar.
  • Lista de cambios para el próximo mes.

Trimestral

  • Encuesta corta al equipo.
  • Revisión completa de tests (¿siguen siendo relevantes?).
  • Decisión sobre cambios estructurales.
  • Reporte a dirección.

Semestral

  • Auditoría más profunda de cumplimiento.
  • Revisión de la documentación indexada.
  • Comparación con baseline inicial.

Sin esta rutina, los asistentes se degradan silenciosamente.

Lo que indica que un asistente está fallando

Algunas señales que requieren atención:

  • Caída sostenida de uso. Si el equipo deja de consultarlo, algo va mal.
  • Aumento de derivaciones a humano sin razón clara.
  • Comentarios negativos repetidos en feedback directo.
  • Errores graves detectados en revisión.
  • Desajuste con la documentación actual (información obsoleta).

Cualquiera de estas señales debería disparar una revisión específica.

Cómo se mejora un asistente que falla

Las acciones más típicas:

  • Actualización de la base documental. Documentos nuevos, eliminación de obsoletos.
  • Ajuste del prompt o configuración. Cambios en cómo se le pide responder.
  • Refinamiento del troceado y la indexación en sistemas RAG.
  • Cambios en el modelo subyacente si el proveedor ofrece versiones nuevas.
  • Mejora del flujo de derivación a humano cuando el asistente no debería responder.

La mayoría de problemas se resuelven con uno o varios de estos ajustes.

Mini-casos

Correduría que descubrió un problema con tests. Implantaron tests automatizados desde el primer día. A los cuatro meses, los tests detectaron que el asistente había bajado del 92 % al 78 % de respuestas correctas. Investigaron: una compañía había cambiado condicionado y no se había actualizado. Corregido en una mañana.

Correduría que escuchó al equipo. Una encuesta trimestral reveló que el equipo encontraba el tono del asistente "demasiado formal". Ajustaron prompt para uso interno con tono más cercano. La adopción mejoró notablemente.

Correduría que ignoró un patrón. Recibieron varios comentarios negativos sobre que el asistente daba respuestas "vagas". No los analizaron. Tras seis meses, el equipo había dejado de usarlo. Recuperar la confianza tras eso costó más que haberlo arreglado a tiempo.

Cómo empezar: la primera evaluación

Para una correduría que aún no evalúa sus asistentes con sistema:

  1. Definir las cuatro dimensiones y métricas para tu caso.
  2. Tomar baseline. Estado actual antes de empezar a mejorar.
  3. Configurar tests automatizados mínimos.
  4. Activar feedback directo del usuario.
  5. Calendarizar revisiones semanales, mensuales, trimestrales.

A las dos semanas, el sistema de evaluación está en marcha. A los tres meses, hay datos suficientes para mejoras dirigidas.

Cierre

Evaluar la calidad de un asistente de IA es una pieza imprescindible de su mantenimiento, no un lujo. Sin evaluación, los asistentes se degradan; con evaluación disciplinada, mejoran y se convierten en activos cada vez más valiosos.

El sistema descrito no es complejo: requiere disciplina más que tecnología. Las corredurías que aplican esta disciplina ven cómo sus asistentes mejoran con el tiempo. Las que no, se sorprenden cuando el sistema empieza a fallar y descubren que llevaba meses degradándose sin que nadie lo notara.

Si quieres montar un sistema de evaluación para tus asistentes de IA, una sesión inicial específica para definir métricas, tests y rutinas suele ser el primer paso para tener una práctica madura en pocos meses.

Más artículos

Lo que nos enseñan los primeros lanzamientos de seguros dentro de ChatGPT sobre el futuro del canal corredor

A lo largo de los últimos meses se han producido los primeros lanzamientos comerciales de aplicaciones de seguros dentro de asistentes generales como ChatGPT. No son experimentos académicos: son...

Read more

Modelos open-source vs propietarios en seguros: privacidad, costes y en qué casos tiene sentido desplegar modelos propios

Cuando una correduría se plantea el tipo de IA que va a usar, antes o después aparece la pregunta: ¿modelos comerciales propietarios (los grandes asistentes que todos conocen) o modelos open-source...

Read more

¿Tiene sentido la IA para tu correduría?

Cada negocio es diferente. En una primera conversación entendemos tu operativa y te decimos honestamente si hay oportunidades reales de automatización — y cuánto podrías ahorrar.

Nuestra oficina

  • Andorra la Vella
    Princep Benlloch 66
    AD500, Andorra la Vella