#visión-lenguaje

WorldFly: Navegación de drones con modelos del mundo

Descubre cómo WorldFly usa modelos del mundo para que los drones naveguen en entornos urbanos complejos, prediciendo futuros estados y superando oclusiones.

2026-06-06 · 2 min

HyperLoRA: Amortizando la adaptación federada de modelos fundacionales

HyperLoRA elimina sesgos de agregación y retrasos en inicialización, logrando convergencia más rápida y personalización robusta en modelos fundacionales.

2026-06-06 · 2 min

UNIVID: modelo unificado de lenguaje visual para moderación de video

Descubre UNIVID, el modelo que unifica visión y lenguaje para moderar videos con precisión, interpretabilidad y eficiencia, reduciendo violaciones y costos.

2026-06-06 · 3 min

CausalPhys: Evaluación de razonamiento físico causal en modelos de visión-lenguaje

Nuevo benchmark CausalPhys con 3,000 preguntas evalúa razonamiento causal en VLMs. Mejora precisión e interpretabilidad con aprendizaje causal.

2026-06-06 · 2 min

Almieyar-Oryx-BloomBench: Evaluación cognitiva bilingüe de VLMs

BloomBench: el primer benchmark bilingüe para evaluar cognitivamente modelos de visión-lenguaje. Asimetrías clave entre árabe e inglés.

2026-06-05 · 2 min

BloomBench: Benchmark bilingüe multimodal para evaluación cognitiva de VLMs

Descubre BloomBench, benchmark bilingüe (árabe-inglés) que evalúa la capacidad cognitiva de modelos visión-lenguaje. Revela brechas en memoria y creatividad.

2026-06-05 · 1 min

DRIFT: Adaptador de flujo residual para salidas continuas en modelos de lenguaje visual

Descubre cómo DRIFT adapta modelos de visión-lenguaje para generar salidas continuas con precisión, mejorando tareas como grounding visual y control robótico.

2026-06-05 · 2 min

DRIFT: Adaptador de flujo residual para salidas continuas en VLMs

DRIFT adapta modelos VLM para salidas continuas con un adaptador de flujo residual, mejorando precisión en percepción y control robótico.

2026-06-05 · 2 min

Un marco de visión-lenguaje para razonamiento comparativo en radiología

MedReCo: un framework que permite a la IA razonar comparativamente entre imágenes radiológicas, mejorando diagnósticos y seguimientos. Resultados clínicos superiores.

2026-06-05 · 2 min

LEVANTE-bench: Comparación multiescala de VLMs con niños

Descubre cómo LEVANTE-bench compara modelos de IA con niños de 5 a 12 años en tareas cognitivas. ¿Son los VLMs más inteligentes que un niño de 5º grado?

2026-06-05 · 2 min

Rompiendo el cuello de botella perceptual en IA con SceneDiver

Descubre cómo SceneDiver rompe el cuello de botella perceptual en IA visión-lenguaje, reduciendo alucinaciones visuales en robótica y navegación.

2026-06-04 · 1 min

Modelo VLM consciente de creencias para razonamiento humano

Descubre cómo el modelo VLM consciente de creencias combina memoria y RL para un razonamiento similar al humano. Mejora en QA visual con HD-EPIC. ¡Lee más!

2026-06-04 · 2 min

ZeroWBC: Interacción humanoide natural desde datos egocéntricos

Descubre cómo ZeroWBC permite a humanoides interactuar de forma natural sin teleoperación, aprendiendo de videos egocéntricos.

2026-06-04 · 2 min

EvoPrompt: Evolución Guiada de Prompts para VLMs

EvoPrompt: evolución guiada de prompts para adaptación sin olvido de VLMs en pocos datos. Preserva conocimiento pre-entrenado.

2026-06-04 · 1 min

Codificadores Visuales con Estado para Modelos de Visión-Lenguaje

Codificadores visuales con estado mejoran la comparación entre imágenes en modelos de visión-lenguaje, superando a especialistas en radiología y teledetección.

2026-06-04 · 2 min

Codificadores visuales con estado para modelos visión-lenguaje

Descubre cómo los codificadores visuales con estado mejoran los modelos visión-lenguaje en tareas multi-imagen y superan a modelos en radiología y teledetección

2026-06-04 · 3 min

Diagnóstico espectral de desbalance en modelos visión-lenguaje médico

SAS revela asimetrías en modelos visión-lenguaje médicos, midiendo desequilibrio de modalidad. Útil para diagnóstico práctico en IA clínica.

2026-06-04 · 2 min

KODA: Comparación y alineación de representaciones en modelos visión-lenguaje

KODA compara y alinea representaciones de modelos visión-lenguaje como CLIP y SigLIP usando kernels. Identifica discrepancias estructurales interpretables.

2026-06-04 · 2 min

VISTA: Adaptación con visión y validación física de datos UMI para entrenamiento VLA

Descubre cómo VISTA combina visión y validación física para adaptar datos UMI y entrenar modelos VLA, mejorando el rendimiento en manipulación robótica real.

2026-06-04 · 1 min

Destilación Geométrica para Ajuste de Prompts en Modelos Biomédicos

Descubre cómo OGKD mejora la precisión en modelos médicos al respetar relaciones entre clases. Resultados superiores en 11 datasets.

2026-06-04 · 2 min