La fidelidad de mi RAG era 0.67: 1 de cada 3 respuestas seguían equivocadas

Al construir un sistema RAG en japonés con hardware local, descubrimos que la fidelidad del 0,67 no evitaba que un tercio de las respuestas fueran incorrectas. El problema real no era el reranking, sino el bajo context_recall: la evidencia necesaria simplemente no se recuperaba. Optimizar solo por fidelidad es una trampa que oculta respuestas “fieles pero equivocadas”. Para un sistema fiable, hay que medir la corrección real frente a la respuesta de referencia y usar un juez independiente. En ia para empresas, este enfoque evita desplegar sistemas que fallan silenciosamente. Combinamos aplicaciones a medida con servicios cloud AWS y Azure, inteligencia artificial y agentes IA, garantizando que cada componente —desde la recuperación hasta la respuesta— sea auditable. La lección: no te detengas en la fidelidad; mide el recall y la corrección, y no uses el mismo modelo para generar y evaluar.

Compartir

Comentarios