#multimodal

Detección de odio en video con fusión multimodal razonada

Descubre cómo RAMF mejora la detección de odio en videos con fusión multimodal y razonamiento adversario, superando métodos actuales en 3% y 7%

2026-06-01 · 2 min

De la fusión al arbitraje: segmentación 3D multimodal con pocos ejemplos

DA-FSS resuelve el dilema plasticidad-estabilidad en segmentación 3D multimodal con pocos ejemplos, superando a MM-FSS en S3DIS y ScanNet.

2026-06-01 · 1 min

MechVQA: Evaluando LLMs multimodales en dibujos mecánicos

MechVQA: el primer dataset completo para evaluar LLMs multimodales en dibujos mecánicos. Supera a modelos cerrados con un 7.57% de precisión extra.

2026-06-01 · 2 min

ImmersiveTTS: Texto a Voz Consciente del Entorno con Difusión Multimodal

ImmersiveTTS genera voz natural integrada en entornos reales, superando en naturalidad e inteligibilidad a otros modelos. Conoce cómo logra la alineación semántica con difusión multimodal.

2026-06-01 · 2 min

Adaptador Variacional para Representación de Similitud Multimodal

Descubre cómo el Adaptador Variacional mejora la similitud multimodal resolviendo falsos negativos y potenciando la generalización en modelos de visión-lenguaje

2026-06-01 · 2 min

¿Juega la información visual un papel decisivo en la conducción de modelos VLA?

Analizamos la relación entre información visual y comportamiento de conducción en modelos VLA mediante perturbaciones controladas. Implicaciones para sistemas más seguros.

2026-06-01 · 2 min

Más allá de la clasificación: enrutamiento dinámico en recuperación multimodal

Descubre cómo el enrutamiento dinámico de adaptadores mejora la recuperación multimodal continua, superando métodos tradicionales. Ideal para IA y visión.

2026-06-01 · 2 min