#vlm · DeepCodeNews

Mitigación de alucinaciones en LVLMs con control de sensibilidad visual por token

Descubre TLVS, un método de control de sensibilidad visual por token que reduce alucinaciones en modelos de visión-lenguaje sin afectar contenido veraz.

2026-06-09 · 1 min

Reidentificación semántica zero-shot para conducción autónoma con VLM

Los VLMs permiten reidentificar objetos en conducción autónoma mediante descripciones semánticas zero-shot, con rendimiento comparable a CNN y mayor interpretabilidad.

2026-06-09 · 2 min

CLASP: Selección y composición de habilidades robóticas con lenguaje natural

CLASP permite a robots entender comandos en lenguaje natural y aprender habilidades con solo 2-5 demostraciones, logrando un 73-100% de éxito.

2026-06-09 · 2 min

Inferencia colaborativa de borde a servidor para modelos VLM

Descubre cómo la inferencia colaborativa edge-to-server reduce el costo de comunicación en modelos VLM sin sacrificar precisión. Optimiza tu infraestructura con transmisión selectiva.

2026-06-09 · 2 min

¿Cuántos contrafactuales? Sondeando alucinaciones VLM

Analiza alucinaciones VLM mediante contrafactuales y efectos causales. Descubre cuántas muestras se requieren para detectar inestabilidad.

2026-06-09 · 2 min

Diagnóstico de ignorancia visual en modelos de lenguaje-visión

Descubre cómo los VLMs ignoran la evidencia visual y dependen de sesgos textuales. Un análisis interno revela fallos en la integración multimodal.

2026-06-08 · 2 min

Viendo el tiempo: Evaluando el razonamiento cronológico en VLMs

Descubre cómo los VLMs fallan al razonar sobre el tiempo, usando atajos visuales en lugar de lógica cronológica. Nuevo benchmark y datasets para mejorar la IA.

2026-06-06 · 2 min

Drive-KD: Destilación multi-profesor para VLMs en conducción autónoma

Drive-KD destila conocimiento multi-profesor para VLMs en conducción autónoma: menor uso de GPU, mayor throughput y rendimiento superior en planificación.

2026-06-06 · 2 min

DAST: Un marco VLM-LLM para detección de anomalías entre interfaces en O-RAN

Descubre DAST, un framework zero-shot que combina VLM y LLM para detectar anomalías entre interfaces O-RAN, superando métodos tradicionales. Alta precisión sin etiquetas.

2026-06-06 · 2 min

Almieyar-Oryx-BloomBench: Evaluación cognitiva bilingüe de VLMs

BloomBench: el primer benchmark bilingüe para evaluar cognitivamente modelos de visión-lenguaje. Asimetrías clave entre árabe e inglés.

2026-06-05 · 2 min

BloomBench: Benchmark bilingüe multimodal para evaluación cognitiva de VLMs

Descubre BloomBench, benchmark bilingüe (árabe-inglés) que evalúa la capacidad cognitiva de modelos visión-lenguaje. Revela brechas en memoria y creatividad.

2026-06-05 · 1 min

Compresión de bajo rango guiada por Pareto y activaciones para LLM/VLM

Optimiza LLM/VLM con compresión de bajo rango informada por activaciones y guiada por Pareto. Logra mayor eficiencia sin sacrificar precisión.

2026-06-05 · 3 min

Aprendizaje de autocorrección en modelos visión-lenguaje mediante aumento de trayectorias

Descubre cómo Octopus-8B logra autocorrección eficiente en VLMs mediante aumento de trayectorias, superando a otros modelos con un 1.0 de puntuación y menor tiempo de entrenamiento.

2026-06-05 · 2 min

LEVANTE-bench: Comparación multiescala de VLMs con niños

Descubre cómo LEVANTE-bench compara modelos de IA con niños de 5 a 12 años en tareas cognitivas. ¿Son los VLMs más inteligentes que un niño de 5º grado?

2026-06-05 · 2 min

Rompiendo el cuello de botella perceptual en IA con SceneDiver

Descubre cómo SceneDiver rompe el cuello de botella perceptual en IA visión-lenguaje, reduciendo alucinaciones visuales en robótica y navegación.

2026-06-04 · 1 min

Modelo VLM consciente de creencias para razonamiento humano

Descubre cómo el modelo VLM consciente de creencias combina memoria y RL para un razonamiento similar al humano. Mejora en QA visual con HD-EPIC. ¡Lee más!

2026-06-04 · 2 min

Modelo VLM consciente de creencias para razonamiento humanoide

Descubre cómo un modelo VLM consciente de creencias integra memoria y aprendizaje por refuerzo para un razonamiento similar al humano, mejorando tareas de VQA.

2026-06-04 · 3 min

¿Pueden los VLM predecir el futuro? Arranque desde dinámica inversa

Los VLM pueden predecir estados futuros con ayuda de la dinámica inversa. Descubre cómo logran resultados líderes en edición de imágenes.

2026-06-04 · 2 min

¿Pueden los VLMs predecir estados futuros? Bootstrapping desde dinámica inversa

Los VLMs predicen estados futuros usando bootstrapping de dinámica inversa, mejorando la edición de imágenes hasta un 13% en evaluaciones humanas.

2026-06-04 · 2 min

Codificadores visuales con estado para modelos visión-lenguaje

Descubre cómo los codificadores visuales con estado mejoran los modelos visión-lenguaje en tareas multi-imagen y superan a modelos en radiología y teledetección

2026-06-04 · 3 min