#vlm · DeepCodeNews

Teach-and-Repeat: Extrayendo conocimiento operativo de demostraciones móviles

Descubre cómo Teach-and-Repeat convierte videos de pantalla móvil en instrucciones precisas para agentes GUI, acelerando la automatización en Android.

2026-06-12 · 2 min

PERIA: Agente visual con herramientas para razonamiento espacial

Descubre PERIA, un agente visual que usa herramientas para mejorar el razonamiento espacial. Supera a modelos grandes en tareas de mapas, probing y reconstrucción.

2026-06-12 · 2 min

LatentLens: Revelando tokens visuales interpretables en LLMs

Descubre LatentLens, un método que revela qué codifican los tokens visuales en modelos de lenguaje. Mejora la interpretabilidad de VLMs.

2026-06-12 · 2 min

AutoMine: Minería de Escenarios Autónomos para Vehículos con IA

Descubre AutoMine: extrae escenarios críticos con LLMs y VLMs para conducción autónoma, logrando scores líderes en Argoverse 2.

2026-06-11 · 3 min

AVIS: Escalado Adaptativo en Tiempo de Prueba para Modelos de Visión-Lenguaje

Descubre cómo AVIS optimiza la inferencia en VLMs adaptando el escalado visual y de razonamiento, mejorando precisión y reduciendo costos.

2026-06-11 · 1 min

Purificación Adversarial Acumulativa con Difusión en Modelos Multimodales

DiffCAP neutraliza ataques adversariales en modelos de visión-lenguaje. Descubre cómo mejora la seguridad.

2026-06-11 · 2 min

Ver antes de colisionar: RL segura anticipatoria con modelos de lenguaje visual

Descubre cómo los modelos de lenguaje visual congelados permiten un RL anticipatorio que evita colisiones antes de que ocurran, superando métodos tradicionales.

2026-06-11 · 3 min

FronTalk: generación conversacional de código front-end con feedback multimodal

Descubre FronTalk, benchmark para generación de código front-end con feedback multimodal. Conoce el olvido en modelos y la solución AceCoder.

2026-06-11 · 2 min

De Prompts a Tokens: BridgeVLM para Razonamiento Causal Multi-Imagen

BridgeVLM internaliza causalidad en VLMs multi-imagen con tokens de razonamiento, superando prompts (54.4% vs 33.2%).

2026-06-11 · 2 min

DIRECT: Cuando y donde asignar computo en planificadores

Aprende a asignar cómputo de prueba en planificadores encarnados con DIRECT: reduce costos y latencia, mantén el rendimiento.

2026-06-11 · 2 min

Reroute, no eliminar: enrutamiento visual recuperable en VLMs

Descubre cómo Reroute optimiza tokens visuales en VLMs, mejora grounding y mantiene rendimiento VQA. Técnica sin entrenamiento que redirige tokens.

2026-06-11 · 2 min

¿Qué escuchan realmente los detectores de deepfake?

¿Qué pistas usan los detectores de deepfake de voz? Descubre cómo analizan ambiente, fonemas y bordes de palabras para detectar audios falsos. Explicabilidad con IA.

2026-06-10 · 3 min

Robustez de tareas mediante reetiquetado de datos robóticos visión-acción

TREAD usa VLMs para reetiquetar datos robóticos y mejorar robustez en tareas nuevas. Aumenta la generalización de tu robot.

2026-06-10 · 2 min

Contaminación de preentrenamiento en benchmarks médicos de visión-lenguaje

Auditamos benchmarks médicos de VLM y encontramos solapamiento de imágenes en SLAKE-En (19.8%) y señales de intercambiabilidad en Qwen2.5-VL. ¿Confías en tus modelos?

2026-06-10 · 2 min

Orquestación de políticas robóticas: estudio sistemático agentes VLA jerárquicos

Descubre principios clave para sistemas VLA jerárquicos eficientes en robótica. Estudio optimiza orquestación de políticas para robots reales.

2026-06-10 · 2 min

Mitigación de alucinaciones en LVLMs con control de sensibilidad visual por token

Descubre TLVS, un método de control de sensibilidad visual por token que reduce alucinaciones en modelos de visión-lenguaje sin afectar contenido veraz.

2026-06-09 · 1 min

Reidentificación semántica zero-shot para conducción autónoma con VLM

Los VLMs permiten reidentificar objetos en conducción autónoma mediante descripciones semánticas zero-shot, con rendimiento comparable a CNN y mayor interpretabilidad.

2026-06-09 · 2 min

CLASP: Selección y composición de habilidades robóticas con lenguaje natural

CLASP permite a robots entender comandos en lenguaje natural y aprender habilidades con solo 2-5 demostraciones, logrando un 73-100% de éxito.

2026-06-09 · 2 min

Inferencia colaborativa de borde a servidor para modelos VLM

Descubre cómo la inferencia colaborativa edge-to-server reduce el costo de comunicación en modelos VLM sin sacrificar precisión. Optimiza tu infraestructura con transmisión selectiva.

2026-06-09 · 2 min

¿Cuántos contrafactuales? Sondeando alucinaciones VLM

Analiza alucinaciones VLM mediante contrafactuales y efectos causales. Descubre cuántas muestras se requieren para detectar inestabilidad.

2026-06-09 · 2 min