#visión-lenguaje

ToolGate: Control Eficiente de Llamadas a Herramientas en Agentes VLA

Descubre ToolGate, un controlador ligero que decide cuándo ejecutar herramientas en agentes VLA, reduciendo tokens hasta un 64% y mejorando la precisión.

2026-06-03 · 1 min

Descomponiendo cómo el prompting guía el comportamiento

Descubre cómo las instrucciones transforman las representaciones internas de la IA. Un estudio revela la geometría detrás del comportamiento inducido.

2026-06-03 · 3 min

P²-DPO: Calibración de preferencias contra alucinaciones en visión-lenguaje

Descubre cómo P²-DPO reduce alucinaciones en modelos de visión-lenguaje mediante calibración de preferencias, superando métodos con retroalimentación humana.

2026-06-03 · 2 min

Más allá de la acumulación de codificadores en VLM

Descubre cómo medir el rol de cada codificador en modelos VLM multicodificador. Capacidad y Necesidad revelan pares óptimos para entrenar sin acumular. Investigación con 16 benchmarks.

2026-06-03 · 2 min

Align-KD: destilando conocimiento de alineación multimodal para VLMs móviles

Descubre Align-KD, técnica que destila conocimiento de alineación multimodal de VLMs grandes a modelos móviles, mejorando precisión en 6 benchmarks.

2026-06-03 · 2 min

BYORn: Genera tus propias respuestas para defender modelos de visión-lenguaje

Descubre BYORn, método que protege modelos visión-lenguaje durante fine-tuning contra ataques backdoor, mejorando robustez.

2026-06-03 · 2 min

GLINT: Alineación dispersa de visión-lenguaje para radiología

GLINT alinea visión-lenguaje en radiología con compuertas dispersas. Logra segmentación zero-shot en 3D sin supervisión y supera a modelos previos.

2026-06-03 · 2 min

Ver Menos, Especificar Más: Presupuestos de Evidencia para VLA

Mejora la generalización de modelos VLA con S2: entrena al ejecutor con guías locales y presupuestos de evidencia visual. Logra 79% de éxito en tareas robóticas.

2026-06-03 · 2 min

PolarMem: Memoria latente polarizada sin entrenamiento para VLMs verificables

PolarMem: sistema de memoria gráfica polarizada sin entrenamiento que verifica y reduce contradicciones en modelos de visión-lenguaje para un razonamiento multimodal confiable.

2026-06-03 · 2 min

RadAgent: un agente de IA para la interpretación paso a paso de tomografías de tórax

Descubre RadAgent, el agente de IA que interpreta tomografías de tórax paso a paso, ofreciendo total transparencia y precisión. Mejora diagnósticos y confianza clínica.

2026-06-03 · 2 min

StreamingVLM: Comprensión en tiempo real para transmisiones de video infinitas

StreamingVLM revoluciona la comprensión de video en tiempo real: procesa flujos infinitos con solo 8 FPS en un H100, superando a GPT-4O mini. ¡Descubre su arquitectura!

2026-06-02 · 2 min

CARES: Selector de Resolución Consciente del Contexto para VLMs

CARES es un módulo ligero que selecciona la resolución mínima para VLMs, reduciendo el cómputo hasta un 80% sin perder precisión. Optimiza tus modelos.

2026-06-02 · 1 min

Efectos de los distractores en modelos de razonamiento visual-lingüístico

Los distractores visuales afectan a los modelos visión-lenguaje de forma distinta a los textuales: reducen precisión sin alargar el razonamiento. Aprende a mitigarlos.

2026-06-02 · 2 min

DeepLatent: Razonamiento visual latente paralelo con imágenes

DeepLatent: revolucionario marco paralelo de razonamiento visual latente. Usa tokens 2D y RL continuo para alcanzar rendimiento de vanguardia en benchmarks clave.

2026-06-02 · 1 min

Traducción consciente de densidad de correlaciones espurias en VLMs

Descubre cómo DAT corrige correlaciones espurias en VLMs zero-shot usando densidad local para mejorar precisión sin ajuste fino.

2026-06-02 · 1 min

Adaptación de dominio con un único embedding visión-lenguaje

Nuevo método de adaptación de dominio con un embedding visión-lenguaje para conducción autónoma sin datos objetivo, superando condiciones adversas.

2026-06-02 · 2 min

Difusión Discreta VLA: Decodificación Adaptativa de Acciones Robóticas

Descubre cómo Difusión Discreta VLA decodifica acciones robóticas con orden adaptativo y corrección de errores. 96.4% éxito en LIBERO.

2026-06-02 · 3 min

De Segmentos a Escenas: Comprensión Temporal en Conducción Autónoma

Conoce el benchmark TAD para conducción autónoma. Scene-CoT y TCogMap mejoran la comprensión temporal de VLMs hasta un 17.72% sin entrenamiento.

2026-06-02 · 1 min

VLM4VLA: Revisando la competencia de los VLM en robótica

VLM4VLA revela que la capacidad general de los VLM no garantiza un buen control robótico. Descubre las claves para elegir el modelo adecuado.

2026-06-02 · 2 min

SilentDrift: ataque backdoor sigiloso en modelos VLA

SilentDrift explota la vulnerabilidad en modelos VLA para ataques backdoor sigilosos. Logra un 93.2% de éxito con solo 2% de envenenamiento. ¡Descubre cómo!

2026-06-02 · 2 min