ToolGate: Control Eficiente de Llamadas a Herramientas en Agentes VLA
Descubre ToolGate, un controlador ligero que decide cuándo ejecutar herramientas en agentes VLA, reduciendo tokens hasta un 64% y mejorando la precisión.
Descubre ToolGate, un controlador ligero que decide cuándo ejecutar herramientas en agentes VLA, reduciendo tokens hasta un 64% y mejorando la precisión.
Descubre cómo las instrucciones transforman las representaciones internas de la IA. Un estudio revela la geometría detrás del comportamiento inducido.
Descubre cómo P²-DPO reduce alucinaciones en modelos de visión-lenguaje mediante calibración de preferencias, superando métodos con retroalimentación humana.
Descubre cómo medir el rol de cada codificador en modelos VLM multicodificador. Capacidad y Necesidad revelan pares óptimos para entrenar sin acumular. Investigación con 16 benchmarks.
Descubre Align-KD, técnica que destila conocimiento de alineación multimodal de VLMs grandes a modelos móviles, mejorando precisión en 6 benchmarks.
Descubre BYORn, método que protege modelos visión-lenguaje durante fine-tuning contra ataques backdoor, mejorando robustez.
GLINT alinea visión-lenguaje en radiología con compuertas dispersas. Logra segmentación zero-shot en 3D sin supervisión y supera a modelos previos.
Mejora la generalización de modelos VLA con S2: entrena al ejecutor con guías locales y presupuestos de evidencia visual. Logra 79% de éxito en tareas robóticas.
PolarMem: sistema de memoria gráfica polarizada sin entrenamiento que verifica y reduce contradicciones en modelos de visión-lenguaje para un razonamiento multimodal confiable.
Descubre RadAgent, el agente de IA que interpreta tomografías de tórax paso a paso, ofreciendo total transparencia y precisión. Mejora diagnósticos y confianza clínica.
StreamingVLM revoluciona la comprensión de video en tiempo real: procesa flujos infinitos con solo 8 FPS en un H100, superando a GPT-4O mini. ¡Descubre su arquitectura!
CARES es un módulo ligero que selecciona la resolución mínima para VLMs, reduciendo el cómputo hasta un 80% sin perder precisión. Optimiza tus modelos.
Los distractores visuales afectan a los modelos visión-lenguaje de forma distinta a los textuales: reducen precisión sin alargar el razonamiento. Aprende a mitigarlos.
DeepLatent: revolucionario marco paralelo de razonamiento visual latente. Usa tokens 2D y RL continuo para alcanzar rendimiento de vanguardia en benchmarks clave.
Descubre cómo DAT corrige correlaciones espurias en VLMs zero-shot usando densidad local para mejorar precisión sin ajuste fino.
Nuevo método de adaptación de dominio con un embedding visión-lenguaje para conducción autónoma sin datos objetivo, superando condiciones adversas.
Descubre cómo Difusión Discreta VLA decodifica acciones robóticas con orden adaptativo y corrección de errores. 96.4% éxito en LIBERO.
Conoce el benchmark TAD para conducción autónoma. Scene-CoT y TCogMap mejoran la comprensión temporal de VLMs hasta un 17.72% sin entrenamiento.
VLM4VLA revela que la capacidad general de los VLM no garantiza un buen control robótico. Descubre las claves para elegir el modelo adecuado.
SilentDrift explota la vulnerabilidad en modelos VLA para ataques backdoor sigilosos. Logra un 93.2% de éxito con solo 2% de envenenamiento. ¡Descubre cómo!