GEASS: Control de Subtítulos Sin Entrenamiento para la Mitigación de Alucinaciones en Modelos de Visión-Lenguaje

Los modelos de visión-lenguaje han demostrado una notable capacidad para razonar sobre imágenes y texto, pero aún presentan un desafío persistente: las alucinaciones, es decir, la generación de información no presente en la entrada visual. Investigaciones recientes revelan que utilizar subtítulos generados automáticamente como apoyo no siempre mejora los resultados; de hecho, puede empeorarlos cuando el modelo se ancla en errores asimétricos, donde las omisiones son frecuentes pero las invenciones tienen un impacto desproporcionado. Frente a esta problemática, surge GEASS (Gated Evidence-Aware Selective Steering), un módulo que no requiere entrenamiento adicional y que decide dinámicamente qué porción del subtítulo incorporar en cada consulta, basándose en la confianza de la trayectoria limpia y la reducción de entropía. Este enfoque permite mitigar las alucinaciones sin necesidad de reentrenar los modelos, optimizando el rendimiento en benchmarks como POPE y HallusionBench. En el contexto empresarial, la implementación de técnicas avanzadas de inteligencia artificial como GEASS se alinea con la necesidad de soluciones de IA para empresas que ofrezcan robustez y precisión. En Q2BSTUDIO, desarrollamos aplicaciones a medida y software a medida que integran modelos de lenguaje y visión, y proporcionamos servicios cloud AWS y Azure para escalar estas soluciones. Además, nuestras capacidades en ciberseguridad y servicios inteligencia de negocio con Power BI permiten a las organizaciones desplegar sistemas fiables y auditables. La incorporación de agentes IA que gestionan el flujo de información entre subtítulos y respuestas representa un avance significativo en la creación de sistemas de IA más transparentes y controlables, un área donde Q2BSTUDIO ofrece consultoría especializada para empresas que buscan adoptar estas tecnologías de forma segura y eficiente.

Compartir

Comentarios