#vlm · DeepCodeNews

Diagnóstico espectral de desbalance en modelos visión-lenguaje médico

SAS revela asimetrías en modelos visión-lenguaje médicos, midiendo desequilibrio de modalidad. Útil para diagnóstico práctico en IA clínica.

2026-06-04 · 2 min

ToolGate: Control Eficiente de Llamadas a Herramientas en Agentes VLA

Descubre ToolGate, un controlador ligero que decide cuándo ejecutar herramientas en agentes VLA, reduciendo tokens hasta un 64% y mejorando la precisión.

2026-06-03 · 1 min

Tokens de Percepción Imaginativa Mejoran Razonamiento Espacial

Los Tokens de Percepción Imaginativa (IPT) mejoran el razonamiento espacial en modelos multimodales sin generar imágenes. Aumento del 3.4% en precisión en conteo multivista.

2026-06-03 · 1 min

Align-KD: destilando conocimiento de alineación multimodal para VLMs móviles

Descubre Align-KD, técnica que destila conocimiento de alineación multimodal de VLMs grandes a modelos móviles, mejorando precisión en 6 benchmarks.

2026-06-03 · 2 min

GLINT: Alineación dispersa de visión-lenguaje para radiología

GLINT alinea visión-lenguaje en radiología con compuertas dispersas. Logra segmentación zero-shot en 3D sin supervisión y supera a modelos previos.

2026-06-03 · 2 min

De diagnóstico interno a auditoría externa: defensa contra backdoors con VLM

Conoce PRISM, un marco basado en VLMs que cambia el diagnóstico interno por auditoría externa para neutralizar backdoors con tasa de éxito menor al 1%.

2026-06-03 · 2 min

PolarMem: Memoria latente polarizada sin entrenamiento para VLMs verificables

PolarMem: sistema de memoria gráfica polarizada sin entrenamiento que verifica y reduce contradicciones en modelos de visión-lenguaje para un razonamiento multimodal confiable.

2026-06-03 · 2 min

StreamingVLM: Comprensión en tiempo real para transmisiones de video infinitas

StreamingVLM revoluciona la comprensión de video en tiempo real: procesa flujos infinitos con solo 8 FPS en un H100, superando a GPT-4O mini. ¡Descubre su arquitectura!

2026-06-02 · 2 min

CARES: Selector de Resolución Consciente del Contexto para VLMs

CARES es un módulo ligero que selecciona la resolución mínima para VLMs, reduciendo el cómputo hasta un 80% sin perder precisión. Optimiza tus modelos.

2026-06-02 · 1 min

Localización auto-mejorada de objetos pequeños en LVLMs

Descubre la auto-mejora en localización de objetos pequeños con LVLMs usando atención: hasta 19% de mejora sin ajuste fino.

2026-06-02 · 2 min

VLM4VLA: Revisando la competencia de los VLM en robótica

VLM4VLA revela que la capacidad general de los VLM no garantiza un buen control robótico. Descubre las claves para elegir el modelo adecuado.

2026-06-02 · 2 min

RDA: Agente de diseño de recompensas para aprendizaje por refuerzo

Descubre RDA, un agente basado en VLM que diseña recompensas semánticas para robots. Logra políticas alineadas con instrucciones humanas en manipulación.

2026-06-02 · 2 min

SceneSmith: generación de escenas interiores realistas para simulación con IA

SceneSmith: genera escenas interiores realistas con IA para simulación robótica. Hasta 6x más objetos, <2% colisiones, 96% estables.

2026-06-02 · 2 min

DREAM-S: Decodificación especulativa para generación multimodal

Acelera la generación multimodal con DREAM-S, un novedoso método de decodificación especulativa que alcanza 3.85x de velocidad en VLMs.

2026-06-02 · 2 min

Espejismo de seguridad: Correlaciones espurias y desaprendizaje en VLM

Aprende cómo las correlaciones espurias en VLM crean un espejismo de seguridad y cómo el desaprendizaje reduce ataques y rechazos innecesarios.

2026-06-02 · 2 min

Ryze: Síntesis de datos enriquecida con evidencia de papers biomédicos

Descubre Ryze, un sistema que automatiza la creación de datasets enriquecidos con evidencia visual a partir de papers biomédicos, superando a GPT-5.

2026-06-02 · 2 min

Dr. DocBench: benchmark completo para análisis de documentos expertos

Descubre Dr. DocBench, el benchmark que expone las limitaciones de los modelos actuales en el análisis de documentos expertos con 65k anotaciones en 52 dominios.

2026-06-02 · 2 min

Límites de la reducción de tokens en entrenamiento visión-lenguaje unificado

¿Cómo acelerar el entrenamiento VLM sin perder sinergia? Descubre la asimetría en atención y los límites de la reducción de tokens. Estrategias clave.

2026-06-02 · 3 min