#multimodal

ProtoAda: Expansión Adaptativa Guiada por Prototipos para Ajuste Continuo

ProtoAda usa prototipos y consolidación geométrica para evitar interferencias en ajuste continuo multimodal, mejorando rendimiento.

2026-06-02 · 2 min

MAVL: Dataset multilingüe audio-video para traducción de canciones animadas

MAVL es un benchmark multilingüe multimodal para traducir canciones animadas. SylAVL-CoT usa audio-video y restricciones silábicas para letras cantables.

2026-06-02 · 2 min

Reconstruir contenido con atención colaborativa mejora embeddings multimodales

Mejora la calidad de embeddings multimodales con atención colaborativa y reconstrucción de contenido para tareas de recuperación y clasificación.

2026-06-02 · 2 min

Design-MLLM: IA para Diseño de Interiores Verificable y Estético

Descubre Design-MLLM, un marco de IA que optimiza el diseño de interiores garantizando viabilidad espacial y estética. Alineación por refuerzo para resultados ejecutables.

2026-06-02 · 1 min

UrbanFusion: Fusión multimodal para representaciones espaciales robustas

UrbanFusion combina imágenes, mapas y POI con fusión estocástica para representaciones espaciales robustas. Supera modelos previos en 41 tareas.

2026-06-02 · 2 min

Avatar Forcing: Avatares interactivos en tiempo real para conversación natural

Descubre cómo Avatar Forcing permite generar avatares interactivos en tiempo real que reaccionan a tu voz y gestos, con baja latencia y sin etiquetado. ¡Más del 80% de preferencia!

2026-06-02 · 1 min

Sesgo de prototipicalidad revela puntos ciegos en métricas multimodales

Descubre cómo el sesgo de prototipicalidad engaña a las métricas de modelos texto-imagen. Conoce PROTOBIAS, el benchmark que detecta fallos semánticos.

2026-06-02 · 2 min

FastSLM: Abstracción Temporal Jerárquica para Audio Largo

Descubre FastSLM: comprime audio largo al 1.67 tok/s, reduce 97% tokens sin perder contexto. Optimiza tus MLLMs.

2026-06-02 · 1 min

Med-Scout: curando la ceguera geométrica en MLLMs médicos con RL

Med-Scout cura la ceguera geométrica de los MLLMs en diagnóstico médico mediante entrenamiento con refuerzo. Mejora percepción geométrica más del 40%.

2026-06-02 · 3 min

APB-V: Acelerando comprensión de videos largos con atención paralela aproximada

Descubre APB-V: acelera la comprensión de videos largos en múltiples GPUs hasta 12.72x sin pérdida de rendimiento. Ideal para modelos multimodales.

2026-06-02 · 2 min

Med-Scout: curando la ceguera geométrica en modelos médicos con RL

Descubre cómo Med-Scout usa RL para eliminar la ceguera geométrica en modelos médicos, mejorando precisión en diagnóstico por imágenes. ¡Supera en un 40% a otros modelos!

2026-06-02 · 2 min

Cuándo y cuánto imaginar: Escalado adaptativo con modelos del mundo para razonamiento espacial

Descubre cuándo y cuánto imaginar en razonamiento espacial visual. AVIC optimiza el uso de modelos del mundo, superando a GPT-4o con menos recursos.

2026-06-02 · 1 min

Dataset REST-ASMR: fotopletismografía y respuestas conductuales

Descubre REST-ASMR, un dataset multimodal que combina fotopletismografía y anotaciones subjetivas para predecir estados ASMR con alta precisión. Ideal para IA afectiva.

2026-06-02 · 2 min

MERIT: Ajuste descentralizado de instrucciones con fusión de pesos

Descubre MERIT: un método descentralizado que mejora el ajuste de instrucciones en modelos multimodales fusionando pesos sin comunicación intensiva. Resultados superiores al entrenamiento conjunto.

2026-06-02 · 2 min

DenseMLLM: LLM multimodal estándar para predicción densa

Descubre cómo DenseMLLM permite a los LLM multimodales estándar realizar predicciones densas sin decodificadores adicionales. Resultados competitivos en segmentación y profundidad.

2026-06-02 · 2 min

LookWise: Saber cuándo y dónde mirar en modelos multimodales

LookWise mejora el razonamiento visual detallado en modelos multimodales sin entrenamiento, logrando 4x más velocidad y mayor precisión en benchmarks. ¡Descúbrelo!

2026-06-02 · 2 min

PaintBench: Evaluación determinista de edición visual precisa

PaintBench: benchmark determinista para edición visual precisa en IA. Evalúa 20 operaciones con métricas exactas. Descubre la baja precisión actual.

2026-06-02 · 2 min

ES-Merging: Fusión de MLLM biológicos mediante señales de embedding

ES-Merging fusiona modelos multimodales biológicos usando señales de embedding, mejorando razonamiento cruzado y preservación.

2026-06-02 · 2 min

EuraGovExam: Benchmark multilingüe de exámenes de servicio civil

Descubre EuraGovExam, un benchmark con exámenes reales de servicio civil en 5 regiones. Evalúa VLMs en razonamiento visual multilingüe. Resultados reveladores.

2026-06-02 · 2 min

Aprendizaje multimodal y programación genética: alineación en espacio latente

Un estudio analiza la alineación multimodal en SNIP para regresión simbólica. Descubre por qué no mejora durante la optimización y qué implica para el futuro.

2026-06-02 · 2 min