#lenguaje visual

Dr. DocBench: benchmark completo para análisis de documentos expertos

Descubre Dr. DocBench, el benchmark que expone las limitaciones de los modelos actuales en el análisis de documentos expertos con 65k anotaciones en 52 dominios.

2026-06-02 · 2 min

Detecta antes de actuar: Detección de espejismos en VLMs

Descubre cómo el método TC-LIA detecta espejismos en modelos de lenguaje visual, evitando respuestas falsas en VQA médica y documental. Precisión del 94.6%.

2026-06-02 · 2 min

V-LynX: alineación de tokens para Video LLMs multimodales

V-LynX alinea tokens en modelos de video para integrar nuevas modalidades (audio, 3D) con eficiencia y rendimiento SOTA. ¡Código abierto!

2026-06-02 · 2 min

VLM3: Modelos de lenguaje visual como aprendices 3D nativos

Descubre cómo VLM3 revoluciona el aprendizaje 3D usando modelos de lenguaje visual estándar, superando a modelos expertos sin arquitecturas complejas.

2026-06-01 · 2 min

Ver antes de acordar: alineando consenso multiagente con evidencia visual

Alinea la evidencia visual de múltiples agentes para consenso preciso en VQA. EAGLE: sin entrenamiento, resultados confiables.

2026-06-01 · 1 min

Modelos visuales suprimen género femenino en imágenes ambiguas

Investigación revela que VLMs suprimen representaciones femeninas en imágenes ambiguas, incluso en ocupaciones estereotipadas femeninas. Conoce la métrica LALS.

2026-06-01 · 2 min