Respuesta a preguntas 3D Zero-Shot mediante transporte jerárquico de vista a token
Descubre cómo KeyVT optimiza la selección de vistas y tokens para responder preguntas sobre escenas 3D sin entrenamiento, superando a métodos existentes.
Descubre cómo KeyVT optimiza la selección de vistas y tokens para responder preguntas sobre escenas 3D sin entrenamiento, superando a métodos existentes.
Descubre cómo las funciones de navegación neural permiten planificar movimiento en entornos nuevos sin reentrenamiento, con trayectorias libres de colisiones y convergencia al objetivo.
Descubre cómo el ajuste visual alinea imágenes y texto en modelos de lenguaje, optimizando el rendimiento multimodal sin aumentar el tiempo de entrenamiento.
Descubre FRED: el primer dataset multimodal para vehículos autónomos en carreteras inundadas, con datos de cámara, LiDAR e IMU para detectar riesgos acuáticos.
SVHalluc: nuevo benchmark para alucinaciones voz-visión en LLMs audiovisuales. Modelos fallan en alineación semántica y temporal.
Descubre cómo CL-DMDF mejora la fusión de datos multimodales con aprendizaje contrastivo y atención adaptativa, superando la falta de modalidades.
Descubre cómo calibrar señales multimodales antes de fusionarlas mejora el rendimiento en reconocimiento de emociones, detección de eventos y más.
QUIVER incorpora vistas cuántico-informadas para mejorar representaciones en grandes modelos de ML, ofreciendo mejoras medibles en QM9 y JetClass.
Conoce AVTrack, el dataset que desafía los métodos actuales de seguimiento audiovisual en escenas humanas complejas con oclusiones y movimiento.
Descubre Plan2Map: benchmark multimodal para reconstruir límites geoespaciales desde documentos de planificación. Logra un 0.736 IoU medio con IA.
Mejora la precisión del grounding en videos egocéntricos con fusión de trayectorias de mano. Resultados en Ego4D: +4.32% en consultas de cantidad/estado.
Potencia MLLMs con MUSE, un arnés agéntico unificado que mejora tareas complejas sin reentrenar, usando verificación y reparación guiada.
Descubre cómo el mercado de limones afecta a los agentes de IA y cómo una capa de confianza permite distinguir agentes fiables de impostores.
Descubre PhotoCraft, un sistema de memoria jerárquica que potencia la búsqueda de imágenes con razonamiento agentivo, logrando mejoras de 18.5% en precisión.
Descubre cómo BotDirector combina robots, IA y objetos cotidianos para que los niños creen sus propias historias interactivas. ¡Una forma innovadora de contar cuentos!
Descubre VistaHop, el benchmark que evalúa el razonamiento visual multi-salto. Solo el 24% de aciertos revela grandes desafíos para la IA.
Red neuronal de grafos multimodal con difusión guiada por Transformer mejora la clasificación del Alzheimer preclínico mediante regiones cerebrales clave.
BilliardPhys-Bench expone los límites de los LLM multimodales en razonamiento físico, revelando el 'sesgo de estasis' en predicciones de billar sintético.
Descubre cómo la nueva capa TTC integra control óptimo en LLMs, mejorando el razonamiento matemático hasta un 27.8% en benchmarks como MATH-500. Una innovación
Descubre cómo el método SLSE-FRS combina Sketch-and-Solve e Iterative-Sketching para obtener estimadores de alta precisión en modelos lineales a gran escala.