#visión-lenguaje

La diversidad importa: cómputo en tiempo de prueba en VLM

Descubre cómo la diversidad de predicciones mejora el razonamiento en VLM. El nuevo método ETTC supera a la votación mayoritaria y a modelos individuales.

2026-06-01 · 3 min

Claves arquitectónicas para reducir alucinaciones en LVLM

Descubre qué factores arquitectónicos (lingüística, visión y alineación) reducen las alucinaciones en LVLM según el estudio CoSimUE. Mejora la fiabilidad de tus modelos.

2026-06-01 · 1 min

Adaptador Variacional para Representación de Similitud Multimodal

Descubre cómo el Adaptador Variacional mejora la similitud multimodal resolviendo falsos negativos y potenciando la generalización en modelos de visión-lenguaje

2026-06-01 · 2 min

Colapso de plantillas en informes de TC 3D: medición y mitigación

El colapso de plantillas limita la detección de hallazgos críticos en TC 3D. Conoce CLarGen, el método que separa detección de síntesis para informes más precisos.

2026-06-01 · 2 min

Descripción multilingüe de arte guiada por curadores para ciegos con modelos pequeños

Estudio piloto usa modelos pequeños de visión-lenguaje para descripciones de arte multilingües guiadas por curadores, mejorando la accesibilidad para ciegos.

2026-06-01 · 2 min

FOCUS: Cómo localizar objetos en contexto sin supervisión de categorías

Aprende cómo FOCUS localiza objetos en contexto sin supervisión de categorías, usando apoyo visual y optimización por refuerzo. Supera modelos de hasta 72B parámetros.

2026-06-01 · 2 min

Detección de colisiones en modelos visión-lenguaje para colaboración segura robot-humano

Descubre cómo los modelos de visión-lenguaje fallan en detectar colisiones robot-humano. TouchSafeBench revela sus limitaciones en seguridad.

2026-06-01 · 2 min

Más allá de la clasificación: enrutamiento dinámico en recuperación multimodal

Descubre cómo el enrutamiento dinámico de adaptadores mejora la recuperación multimodal continua, superando métodos tradicionales. Ideal para IA y visión.

2026-06-01 · 2 min

CrystalXRD-Bench: Evaluación de modelos de visión-lenguaje para la indexación de picos de XRD en diversos materiales cristalinos

2026-05-30 · 1 min

VLA-Trace: Diagnosticando Modelos de Visión-Lenguaje-Acción a través del Rastreo de Representaciones y Comportamientos

2026-05-30 · 3 min

Pequeño pero Confiable: Razonamiento eficiente de visión-lenguaje para detección de anomalías en series temporales

Aprende cómo un modelo pequeño pero confiable detecta anomalías en series temporales usando visión y lenguaje. Eficiencia y precisión.

2026-05-30 · 2 min

Evaluación comparativa de modelos grandes de visión-lenguaje en CFMME: Un conjunto de datos completo de evaluación multimodal financiera china

Comparativa de modelos visión-lenguaje en CFMME, dataset multimodal financiero chino. Análisis de rendimiento y aplicaciones en finanzas.

2026-05-29 · 2 min

OccamToken: Inferencia eficiente de VLM con poda de tokens sin entrenamiento y adaptativa al presupuesto

#visión-lenguaje

La diversidad importa: cómputo en tiempo de prueba en VLM

Claves arquitectónicas para reducir alucinaciones en LVLM

Adaptador Variacional para Representación de Similitud Multimodal

Colapso de plantillas en informes de TC 3D: medición y mitigación

Descripción multilingüe de arte guiada por curadores para ciegos con modelos pequeños

FOCUS: Cómo localizar objetos en contexto sin supervisión de categorías

Detección de colisiones en modelos visión-lenguaje para colaboración segura robot-humano

Más allá de la clasificación: enrutamiento dinámico en recuperación multimodal

CrystalXRD-Bench: Evaluación de modelos de visión-lenguaje para la indexación de picos de XRD en diversos materiales cristalinos

VLA-Trace: Diagnosticando Modelos de Visión-Lenguaje-Acción a través del Rastreo de Representaciones y Comportamientos

Pequeño pero Confiable: Razonamiento eficiente de visión-lenguaje para detección de anomalías en series temporales

Evaluación comparativa de modelos grandes de visión-lenguaje en CFMME: Un conjunto de datos completo de evaluación multimodal financiera china

OccamToken: Inferencia eficiente de VLM con poda de tokens sin entrenamiento y adaptativa al presupuesto

AsymVLM: Poda Asimétrica de Tokens para Inferencia Eficiente de Modelos de Visión y Lenguaje

Revelando el cuello de botella del conteo visual en modelos de visión-lenguaje

Regularización de Representación Contrastiva para Modelos de Visión-Lenguaje-Acción