#visuales

Cuando la atención colapsa: poda de tokens visuales de estructura a semántica

Descubre cómo el marco STS evita el colapso de atención en VLMs, mejorando la diversidad estructural y la relevancia semántica de tokens visuales.

2026-06-03 · 2 min

Qwen-Image-Flash: Más allá del diseño objetivo

Descubre cómo Qwen-Image-Flash optimiza el pipeline de entrenamiento en destilación de pocos pasos para modelos visuales, yendo más allá del diseño objetivo.

2026-06-03 · 2 min

SVHalluc: Evaluación de alucinaciones voz-visión en modelos AV

SVHalluc: nuevo benchmark para alucinaciones voz-visión en LLMs audiovisuales. Modelos fallan en alineación semántica y temporal.

2026-06-03 · 1 min

Ver Menos, Especificar Más: Presupuestos de Evidencia para VLA

Mejora la generalización de modelos VLA con S2: entrena al ejecutor con guías locales y presupuestos de evidencia visual. Logra 79% de éxito en tareas robóticas.

2026-06-03 · 2 min

Vectores funcionales multimodales para relaciones visuales

Descubre cómo los vectores de función multimodal permiten extraer y optimizar relaciones visuales en modelos de IA, mejorando el razonamiento sin necesidad de reentrenar.

2026-06-03 · 1 min

Efectos de los distractores en modelos de razonamiento visual-lingüístico

Los distractores visuales afectan a los modelos visión-lenguaje de forma distinta a los textuales: reducen precisión sin alargar el razonamiento. Aprende a mitigarlos.

2026-06-02 · 2 min

DeepLatent: Razonamiento visual latente paralelo con imágenes

DeepLatent: revolucionario marco paralelo de razonamiento visual latente. Usa tokens 2D y RL continuo para alcanzar rendimiento de vanguardia en benchmarks clave.

2026-06-02 · 1 min

Modelado de lenguaje chino con glifos visuales: arranque en caliente

Descubre cómo los glifos visuales duplican la precisión inicial en modelado de lenguaje chino, pero con un límite final.

2026-06-02 · 2 min

Geometría global no basta para visión artificial

Descubre por qué la geometría global no basta para la composición visual y cómo la sensibilidad funcional predice mejor la representación.

2026-06-02 · 2 min

Codificaciones posicionales anclan estructura espacial y robustez en ViTs

Descubre cómo las codificaciones posicionales anclan la estructura espacial en Vision Transformers y mejoran la robustez. La métrica SSDC revela la geometría.

2026-06-02 · 2 min

Límites del razonamiento espacial en LLMs de frontera

Los LLM de frontera fallan en rotación mental incluso con ayuda externa. Estudio: solo 62.5% de precisión. Descubre por qué carecen de primitivas visuales.

2026-06-02 · 2 min

Moment-Video: Fidelidad temporal de MLLM en eventos visuales momentáneos

Moment-Video evalúa la capacidad de MLLM para captar eventos visuales que duran solo unos fotogramas. Resultados sorprendentes.

2026-06-02 · 2 min

AdaCodec: Un Código Visual Predictivo para Video MLLMs

AdaCodec reduce tokens visuales en video MLLMs hasta 1/7, mejorando benchmarks y reduciendo tiempo de primera respuesta de 9.26s a 1.62s.

2026-06-02 · 3 min

Diversidad sobre frecuencia: repensar uso de herramientas en agentes visuales

La diversidad en exploración supera a la frecuencia de uso de herramientas. Descubre el colapso y cómo la regularización de entropía mejora el razonamiento.

2026-06-02 · 2 min

Clasificación de documentos visuales con enfoques multimodales

Descubre cómo los modelos multimodales superan a los LLM en clasificación de documentos visuales. La información visual es clave. Resultados RVL-CDIP.

2026-06-02 · 2 min

OpenWebRL: Aprendizaje por Refuerzo Multiturno Online para Agentes Web Visuales

OpenWebRL logra un 67% de éxito en benchmarks, superando a agentes propietarios. Descubre cómo entrenar agentes web visuales con RL online de código abierto.

2026-06-02 · 2 min

Mejora del alineamiento de representaciones visuales con GRPO

Descubre cómo VRPO mejora el alineamiento de representaciones en difusores mediante optimización por refuerzo, logrando +1.8 FID y 2.3x más rápido que REPA.

2026-06-02 · 1 min

Cerrar la brecha sim-real en semiconductores con binarización

Aprende cómo la binarización de entrada cierra la brecha sim-real en inspección de semiconductores, mejorando el coeficiente Dice un 20% sin datos reales.

2026-06-02 · 2 min

Diagnóstico de fallos en colaboración visual con recursos limitados

Descubre cómo estado compartido amplifica alucinaciones en agentes visuales limitados. Dos modos de fallo y marco CoSee para mejorar la fiabilidad comunicativa.

2026-06-01 · 3 min

Einops gráficos: uniendo redes tensoriales y grafos de cómputo

Aprende cómo el cálculo gráfico einops permite demostraciones visuales de equivarianza y optimiza atención dispersa.

2026-06-01 · 3 min