#imo · DeepCodeNews

Respuesta a preguntas 3D Zero-Shot mediante transporte jerárquico de vista a token

Descubre cómo KeyVT optimiza la selección de vistas y tokens para responder preguntas sobre escenas 3D sin entrenamiento, superando a métodos existentes.

2026-06-03 · 3 min

Funciones Neurales de Navegación para Planificación de Movimiento Zero-Shot

Descubre cómo las funciones de navegación neural permiten planificar movimiento en entornos nuevos sin reentrenamiento, con trayectorias libres de colisiones y convergencia al objetivo.

2026-06-03 · 2 min

Ajuste de instrucción visual alinea modalidades por abstracción

Descubre cómo el ajuste visual alinea imágenes y texto en modelos de lenguaje, optimizando el rendimiento multimodal sin aumentar el tiempo de entrenamiento.

2026-06-03 · 2 min

FRED: Dataset multimodal para conducción en carreteras inundadas

Descubre FRED: el primer dataset multimodal para vehículos autónomos en carreteras inundadas, con datos de cámara, LiDAR e IMU para detectar riesgos acuáticos.

2026-06-03 · 2 min

SVHalluc: Evaluación de alucinaciones voz-visión en modelos AV

SVHalluc: nuevo benchmark para alucinaciones voz-visión en LLMs audiovisuales. Modelos fallan en alineación semántica y temporal.

2026-06-03 · 1 min

CL-DMDF: Fusión Dinámica de Datos Multimodales con Aprendizaje Contrastivo

Descubre cómo CL-DMDF mejora la fusión de datos multimodales con aprendizaje contrastivo y atención adaptativa, superando la falta de modalidades.

2026-06-03 · 2 min

Calibración contextual multimodal: qué conservar antes de fusionar

Descubre cómo calibrar señales multimodales antes de fusionarlas mejora el rendimiento en reconocimiento de emociones, detección de eventos y más.

2026-06-03 · 3 min

QUIVER: Vistas Cuánticas para Representaciones en Grandes Modelos ML

QUIVER incorpora vistas cuántico-informadas para mejorar representaciones en grandes modelos de ML, ofreciendo mejoras medibles en QM9 y JetClass.

2026-06-03 · 2 min

AVTrack: Seguimiento Audiovisual en Escenas Humanas Complejas

Conoce AVTrack, el dataset que desafía los métodos actuales de seguimiento audiovisual en escenas humanas complejas con oclusiones y movimiento.

2026-06-03 · 1 min

Plan2Map: Benchmark Multimodal para Reconstrucción de Límites Geoespaciales

Descubre Plan2Map: benchmark multimodal para reconstruir límites geoespaciales desde documentos de planificación. Logra un 0.736 IoU medio con IA.

2026-06-03 · 1 min

Fusión de trayectoria de mano para consultas NLQ egocéntricas

Mejora la precisión del grounding en videos egocéntricos con fusión de trayectorias de mano. Resultados en Ego4D: +4.32% en consultas de cantidad/estado.

2026-06-03 · 2 min

MUSE: Un arnés agéntico unificado para MLLMs

Potencia MLLMs con MUSE, un arnés agéntico unificado que mejora tareas complejas sin reentrenar, usando verificación y reparación guiada.

2026-06-03 · 3 min

Agentes de IA: mercado de limones y capa de confianza

Descubre cómo el mercado de limones afecta a los agentes de IA y cómo una capa de confianza permite distinguir agentes fiables de impostores.

2026-06-03 · 2 min

PhotoCraft: Razonamiento Agentivo con Memoria Jerárquica para Búsqueda Visual

Descubre PhotoCraft, un sistema de memoria jerárquica que potencia la búsqueda de imágenes con razonamiento agentivo, logrando mejoras de 18.5% en precisión.

2026-06-03 · 2 min

BotDirector: Narración de robots en realidad simétrica

Descubre cómo BotDirector combina robots, IA y objetos cotidianos para que los niños creen sus propias historias interactivas. ¡Una forma innovadora de contar cuentos!

2026-06-03 · 2 min

VistaHop: Evaluando razonamiento multi-salto para Visual DeepSearch

Descubre VistaHop, el benchmark que evalúa el razonamiento visual multi-salto. Solo el 24% de aciertos revela grandes desafíos para la IA.

2026-06-03 · 2 min

Red Neuronal de Grafos Multimodal para Clasificación de Alzheimer Preclínico

Red neuronal de grafos multimodal con difusión guiada por Transformer mejora la clasificación del Alzheimer preclínico mediante regiones cerebrales clave.

2026-06-03 · 2 min

BilliardPhys-Bench: evaluando el razonamiento físico de los LLM multimodales

BilliardPhys-Bench expone los límites de los LLM multimodales en razonamiento físico, revelando el 'sesgo de estasis' en predicciones de billar sintético.

2026-06-03 · 2 min

Más allá de la memoria en tiempo de test: control óptimo para LLM

Descubre cómo la nueva capa TTC integra control óptimo en LLMs, mejorando el razonamiento matemático hasta un 27.8% en benchmarks como MATH-500. Una innovación

2026-06-03 · 2 min

Estimadores secuenciales de mínimos cuadrados con bosquejo aleatorio rápido

Descubre cómo el método SLSE-FRS combina Sketch-and-Solve e Iterative-Sketching para obtener estimadores de alta precisión en modelos lineales a gran escala.

2026-06-03 · 2 min