Dr. DocBench: benchmark completo para análisis de documentos expertos
Descubre Dr. DocBench, el benchmark que expone las limitaciones de los modelos actuales en el análisis de documentos expertos con 65k anotaciones en 52 dominios.
Descubre Dr. DocBench, el benchmark que expone las limitaciones de los modelos actuales en el análisis de documentos expertos con 65k anotaciones en 52 dominios.
Descubre cómo el método TC-LIA detecta espejismos en modelos de lenguaje visual, evitando respuestas falsas en VQA médica y documental. Precisión del 94.6%.
V-LynX alinea tokens en modelos de video para integrar nuevas modalidades (audio, 3D) con eficiencia y rendimiento SOTA. ¡Código abierto!
Descubre cómo VLM3 revoluciona el aprendizaje 3D usando modelos de lenguaje visual estándar, superando a modelos expertos sin arquitecturas complejas.
Alinea la evidencia visual de múltiples agentes para consenso preciso en VQA. EAGLE: sin entrenamiento, resultados confiables.
Investigación revela que VLMs suprimen representaciones femeninas en imágenes ambiguas, incluso en ocupaciones estereotipadas femeninas. Conoce la métrica LALS.