#multimodal

MiDiGap: aprendizaje robótico eficaz con procesos gaussianos

Descubre MiDiGap, un método de aprendizaje robótico que aprende políticas complejas con solo 5 demostraciones en menos de un minuto. ¡Resultados líderes en manipulación!

2026-06-11 · 1 min

OpenVTON-Bench: benchmark masivo para probadores virtuales

Descubre OpenVTON-Bench, el nuevo benchmark con 100K imágenes de alta resolución para evaluar probadores virtuales con métrica multimodal fiable.

2026-06-11 · 2 min

GLACIER: Modelo multimodal estudiante-maestro para propiedades moleculares

GLACIER integra gráficos, SMILES y descriptores fisicoquímicos para predecir propiedades moleculares con alta eficiencia. Código abierto.

2026-06-11 · 2 min

IAPO: Optimización de Políticas con Atribución de Entradas para Agentes Multimodales

IAPO: un algoritmo de RL que mejora la capacidad de llamar a herramientas en agentes multimodales pequeños, logrando un 3% más de precisión en VQA.

2026-06-11 · 2 min

IAPO: Optimización con atribución de entrada para agentes multimodales

Aumenta un 3% la precisión en VQA con IAPO, algoritmo RL que alinea la atribución de entrada en agentes multimodales pequeños. ¡Descubre cómo!

2026-06-11 · 2 min

FronTalk: generación conversacional de código front-end con feedback multimodal

Descubre FronTalk, benchmark para generación de código front-end con feedback multimodal. Conoce el olvido en modelos y la solución AceCoder.

2026-06-11 · 2 min

DHDE: Fusión Multimodal de Sensores para Movilidad Humana

Descubre cómo el DHDE integra sensores físicos, señales digitales y datos meteorológicos para medir la movilidad humana regional con precisión, revelando una brecha de ingresos millonaria.

2026-06-11 · 3 min

Razonar y re-razonar: Revisión entre vistas mejora razonamiento espacial

ReRe: razonamiento espacial mejorado en videos egocéntricos sin entrenamiento. Revisión entre vistas alcanza rendimiento de modelos propietarios.

2026-06-11 · 3 min

Ajuste eficiente de adaptadores para aprendizaje multimodal tabular-imagen

Descubre TI-Adapter: ajuste eficiente para aprendizaje multimodal tabular-imagen con rendimiento competitivo y menos parámetros entrenables.

2026-06-11 · 1 min

MedCTA: Benchmark para agentes clínicos

Descubre MedCTA, el benchmark para evaluar agentes de IA en tareas clínicas reales. Analizamos su rendimiento en herramientas clínicas y protocolos.

2026-06-11 · 1 min

Ouroboros-Spatial: cerrando el bucle datos-modelo para razonamiento espacial

Ouroboros-Spatial: un marco auto-evolutivo que mejora el razonamiento espacial en modelos multimodales, reduciendo datos redundantes y superando benchmarks.

2026-06-11 · 2 min

MultiToP: Parcheo de tokens visuales contra alucinaciones en video

Aprende cómo MultiToP parchea tokens visuales para reducir alucinaciones en modelos de video. Mejora F1 en 50.6% sin afectar rendimiento.

2026-06-11 · 2 min

Modelado ordinal multimodal de Alzheimer con MRI y datos clínicos

Nuevo modelo de IA multimodal con regresión ordinal logra alta precisión en la clasificación de la severidad del Alzheimer usando MRI y datos clínicos.

2026-06-11 · 2 min

DAM-VLA: Modelo multimodal asíncrono desacoplado

DAM-VLA revoluciona la robótica al desacoplar el procesamiento temporal, logrando un 95.2% de éxito en tareas de contacto. Descubre el nuevo estándar.

2026-06-11 · 2 min

Memoria Estructurada Orientada a Tareas en Aprendizaje Contextual Multimodal Dinámico

Descubre TASM: comprime la memoria de modelos multimodales sin entrenamiento, manteniendo rendimiento y adaptabilidad. Ideal para aprendizaje en contexto.

2026-06-11 · 2 min

ART: Nuevo método de ajuste fino para LLMs multimodales

Descubre ART, un innovador método de fine-tuning para LLMs multimodales que optimiza la entrada visual sin modificar pesos. Competitivo con LoRA en benchmarks.

2026-06-11 · 2 min

Evaluación de personalidad y cognición con embeddings multimodales congelados

Descubre cómo los embeddings multimodales congelados mejoran la predicción de personalidad y capacidad cognitiva en video entrevistas asíncronas.

2026-06-11 · 2 min

MSUE: Experto Multimodal en Comprensión de Fútbol

MSUE combina texto, imagen y video para responder preguntas sobre fútbol con un 95% de precisión. Conoce su arquitectura multi-experto.

2026-06-11 · 1 min

Recuperación del Mundo Latente en Aprendizaje Multimodal Incompleto

LWR: aprendizaje multimodal robusto sin reconstruir datos faltantes. Mejora clasificación de cáncer y predicción de supervivencia con multi-omics incompletos.

2026-06-11 · 2 min

MLaGA: Asistente multimodal de lenguaje y grafos

Descubre MLaGA, el asistente multimodal que integra texto e imágenes en grafos, optimizando el análisis con LLMs. ¡Mejora tu IA!

2026-06-11 · 2 min