Cuando la atención colapsa: poda de tokens visuales de estructura a semántica
Descubre cómo el marco STS evita el colapso de atención en VLMs, mejorando la diversidad estructural y la relevancia semántica de tokens visuales.
Descubre cómo el marco STS evita el colapso de atención en VLMs, mejorando la diversidad estructural y la relevancia semántica de tokens visuales.
Descubre cómo Qwen-Image-Flash optimiza el pipeline de entrenamiento en destilación de pocos pasos para modelos visuales, yendo más allá del diseño objetivo.
SVHalluc: nuevo benchmark para alucinaciones voz-visión en LLMs audiovisuales. Modelos fallan en alineación semántica y temporal.
Mejora la generalización de modelos VLA con S2: entrena al ejecutor con guías locales y presupuestos de evidencia visual. Logra 79% de éxito en tareas robóticas.
Descubre cómo los vectores de función multimodal permiten extraer y optimizar relaciones visuales en modelos de IA, mejorando el razonamiento sin necesidad de reentrenar.
Los distractores visuales afectan a los modelos visión-lenguaje de forma distinta a los textuales: reducen precisión sin alargar el razonamiento. Aprende a mitigarlos.
DeepLatent: revolucionario marco paralelo de razonamiento visual latente. Usa tokens 2D y RL continuo para alcanzar rendimiento de vanguardia en benchmarks clave.
Descubre cómo los glifos visuales duplican la precisión inicial en modelado de lenguaje chino, pero con un límite final.
Descubre por qué la geometría global no basta para la composición visual y cómo la sensibilidad funcional predice mejor la representación.
Descubre cómo las codificaciones posicionales anclan la estructura espacial en Vision Transformers y mejoran la robustez. La métrica SSDC revela la geometría.
Los LLM de frontera fallan en rotación mental incluso con ayuda externa. Estudio: solo 62.5% de precisión. Descubre por qué carecen de primitivas visuales.
Moment-Video evalúa la capacidad de MLLM para captar eventos visuales que duran solo unos fotogramas. Resultados sorprendentes.
AdaCodec reduce tokens visuales en video MLLMs hasta 1/7, mejorando benchmarks y reduciendo tiempo de primera respuesta de 9.26s a 1.62s.
La diversidad en exploración supera a la frecuencia de uso de herramientas. Descubre el colapso y cómo la regularización de entropía mejora el razonamiento.
Descubre cómo los modelos multimodales superan a los LLM en clasificación de documentos visuales. La información visual es clave. Resultados RVL-CDIP.
OpenWebRL logra un 67% de éxito en benchmarks, superando a agentes propietarios. Descubre cómo entrenar agentes web visuales con RL online de código abierto.
Descubre cómo VRPO mejora el alineamiento de representaciones en difusores mediante optimización por refuerzo, logrando +1.8 FID y 2.3x más rápido que REPA.
Aprende cómo la binarización de entrada cierra la brecha sim-real en inspección de semiconductores, mejorando el coeficiente Dice un 20% sin datos reales.
Descubre cómo estado compartido amplifica alucinaciones en agentes visuales limitados. Dos modos de fallo y marco CoSee para mejorar la fiabilidad comunicativa.
Aprende cómo el cálculo gráfico einops permite demostraciones visuales de equivarianza y optimiza atención dispersa.