#multimodal

Align-KD: destilando conocimiento de alineación multimodal para VLMs móviles

Descubre Align-KD, técnica que destila conocimiento de alineación multimodal de VLMs grandes a modelos móviles, mejorando precisión en 6 benchmarks.

2026-06-03 · 2 min

WISE: Evaluación semántica con conocimiento mundial en T2I

WISE: Benchmark que evalúa conocimiento mundial en T2I. 1000 prompts en 25 subdominios, WiScore mide cultura, espacio-tiempo y ciencia.

2026-06-03 · 2 min

TalkPlayData 2: Datos sintéticos para recomendación musical conversacional

Descubre TalkPlayData 2, un dataset sintético de agentes LLM para recomendación musical conversacional. ¡Impulsa tus modelos con datos realistas!

2026-06-03 · 2 min

Aprendiendo el vecindario: Pretraining multimodal libre de contraste molecular

C-FREE integra 2D y 3D en grafos moleculares con pretraining auto-supervisado sin contraste, superando modelos en MoleculeNet.

2026-06-03 · 2 min

TimeOmni-VL: Modelos Unificados para Comprensión y Generación de Series Temporales

TimeOmni-VL unifica comprensión y generación de series temporales mediante visión, transformaciones bidireccionales sin pérdidas y generación guiada por entendimiento. ¡Lee más!

2026-06-03 · 1 min

vLLM Semantic Router: Enrutamiento por señales para modelos multimodales

Descubre cómo vLLM Semantic Router optimiza el enrutamiento de modelos multimodales mediante señales composables, mejorando costos, privacidad y seguridad.

2026-06-03 · 2 min

Predicción de Recurrencia de Cáncer de Mama con Machine Learning Multimodal

Descubre cómo integrar datos clínicos multimodales con ML mejora la predicción de recurrencia del cáncer de mama.

2026-06-03 · 1 min

RLVR: el costo oculto de olvidar problemas resueltos

Descubre el fenómeno de rotación del conjunto correcto en RLVR, donde modelos olvidan problemas resueltos. Conoce REMIND, una técnica que mejora la retención sin costo adicional.

2026-06-03 · 3 min

El camino hacia la conducción autónoma: Dataset multimodal KITScenes

Descubre KITScenes, el dataset europeo con sensores de alta fidelidad y mapas HD completos para conducción autónoma. Incluye benchmarks para mapas, profundidad,

2026-06-03 · 2 min

Screening rápido para resultados y predictores de alta dimensión

Nuevo enfoque de screening rápido para datos multimodales: GIDS reduce dimensiones y revela interacciones biológicas clave en Alzheimer.

2026-06-03 · 2 min

Ajuste de instrucción visual alinea modalidades por abstracción

Descubre cómo el ajuste visual alinea imágenes y texto en modelos de lenguaje, optimizando el rendimiento multimodal sin aumentar el tiempo de entrenamiento.

2026-06-03 · 2 min

FRED: Dataset multimodal para conducción en carreteras inundadas

Descubre FRED: el primer dataset multimodal para vehículos autónomos en carreteras inundadas, con datos de cámara, LiDAR e IMU para detectar riesgos acuáticos.

2026-06-03 · 2 min

SVHalluc: Evaluación de alucinaciones voz-visión en modelos AV

SVHalluc: nuevo benchmark para alucinaciones voz-visión en LLMs audiovisuales. Modelos fallan en alineación semántica y temporal.

2026-06-03 · 1 min

CL-DMDF: Fusión Dinámica de Datos Multimodales con Aprendizaje Contrastivo

Descubre cómo CL-DMDF mejora la fusión de datos multimodales con aprendizaje contrastivo y atención adaptativa, superando la falta de modalidades.

2026-06-03 · 2 min

Calibración contextual multimodal: qué conservar antes de fusionar

Descubre cómo calibrar señales multimodales antes de fusionarlas mejora el rendimiento en reconocimiento de emociones, detección de eventos y más.

2026-06-03 · 3 min

QUIVER: Vistas Cuánticas para Representaciones en Grandes Modelos ML

QUIVER incorpora vistas cuántico-informadas para mejorar representaciones en grandes modelos de ML, ofreciendo mejoras medibles en QM9 y JetClass.

2026-06-03 · 2 min

AVTrack: Seguimiento Audiovisual en Escenas Humanas Complejas

Conoce AVTrack, el dataset que desafía los métodos actuales de seguimiento audiovisual en escenas humanas complejas con oclusiones y movimiento.

2026-06-03 · 1 min

Plan2Map: Benchmark Multimodal para Reconstrucción de Límites Geoespaciales

Descubre Plan2Map: benchmark multimodal para reconstruir límites geoespaciales desde documentos de planificación. Logra un 0.736 IoU medio con IA.

2026-06-03 · 1 min

Fusión de trayectoria de mano para consultas NLQ egocéntricas

Mejora la precisión del grounding en videos egocéntricos con fusión de trayectorias de mano. Resultados en Ego4D: +4.32% en consultas de cantidad/estado.

2026-06-03 · 2 min

MUSE: Un arnés agéntico unificado para MLLMs

Potencia MLLMs con MUSE, un arnés agéntico unificado que mejora tareas complejas sin reentrenar, usando verificación y reparación guiada.

2026-06-03 · 3 min