Align-KD: destilando conocimiento de alineación multimodal para VLMs móviles
Descubre Align-KD, técnica que destila conocimiento de alineación multimodal de VLMs grandes a modelos móviles, mejorando precisión en 6 benchmarks.
Descubre Align-KD, técnica que destila conocimiento de alineación multimodal de VLMs grandes a modelos móviles, mejorando precisión en 6 benchmarks.
WISE: Benchmark que evalúa conocimiento mundial en T2I. 1000 prompts en 25 subdominios, WiScore mide cultura, espacio-tiempo y ciencia.
Descubre TalkPlayData 2, un dataset sintético de agentes LLM para recomendación musical conversacional. ¡Impulsa tus modelos con datos realistas!
C-FREE integra 2D y 3D en grafos moleculares con pretraining auto-supervisado sin contraste, superando modelos en MoleculeNet.
TimeOmni-VL unifica comprensión y generación de series temporales mediante visión, transformaciones bidireccionales sin pérdidas y generación guiada por entendimiento. ¡Lee más!
Descubre cómo vLLM Semantic Router optimiza el enrutamiento de modelos multimodales mediante señales composables, mejorando costos, privacidad y seguridad.
Descubre cómo integrar datos clínicos multimodales con ML mejora la predicción de recurrencia del cáncer de mama.
Descubre el fenómeno de rotación del conjunto correcto en RLVR, donde modelos olvidan problemas resueltos. Conoce REMIND, una técnica que mejora la retención sin costo adicional.
Descubre KITScenes, el dataset europeo con sensores de alta fidelidad y mapas HD completos para conducción autónoma. Incluye benchmarks para mapas, profundidad,
Nuevo enfoque de screening rápido para datos multimodales: GIDS reduce dimensiones y revela interacciones biológicas clave en Alzheimer.
Descubre cómo el ajuste visual alinea imágenes y texto en modelos de lenguaje, optimizando el rendimiento multimodal sin aumentar el tiempo de entrenamiento.
Descubre FRED: el primer dataset multimodal para vehículos autónomos en carreteras inundadas, con datos de cámara, LiDAR e IMU para detectar riesgos acuáticos.
SVHalluc: nuevo benchmark para alucinaciones voz-visión en LLMs audiovisuales. Modelos fallan en alineación semántica y temporal.
Descubre cómo CL-DMDF mejora la fusión de datos multimodales con aprendizaje contrastivo y atención adaptativa, superando la falta de modalidades.
Descubre cómo calibrar señales multimodales antes de fusionarlas mejora el rendimiento en reconocimiento de emociones, detección de eventos y más.
QUIVER incorpora vistas cuántico-informadas para mejorar representaciones en grandes modelos de ML, ofreciendo mejoras medibles en QM9 y JetClass.
Conoce AVTrack, el dataset que desafía los métodos actuales de seguimiento audiovisual en escenas humanas complejas con oclusiones y movimiento.
Descubre Plan2Map: benchmark multimodal para reconstruir límites geoespaciales desde documentos de planificación. Logra un 0.736 IoU medio con IA.
Mejora la precisión del grounding en videos egocéntricos con fusión de trayectorias de mano. Resultados en Ego4D: +4.32% en consultas de cantidad/estado.
Potencia MLLMs con MUSE, un arnés agéntico unificado que mejora tareas complejas sin reentrenar, usando verificación y reparación guiada.