#modalidades

MOSAIC: Aprendizaje continuo incremental adaptado a modalidades para Parkinson

Descubre MOSAIC, un marco de aprendizaje continuo que adapta cada modalidad de sensor para evaluar la marcha en Parkinson evitando el olvido.

2026-06-12 · 3 min

Modelado de conceptos enmascarados entre modalidades: MACCO

Descubre MACCO, un innovador marco que mejora la comprensión composicional en modelos visión-lenguaje como CLIP, superando el comportamiento de 'bolsa de palabras'.

2026-06-12 · 1 min

HYDRA-X: Modelo multimodal unificado con tokenizador visual holístico

HYDRA-X unifica tokenización de imágenes y video en un solo ViT. Mejora edición y comprensión multimodal. ¡Descubre cómo!

2026-06-12 · 2 min

Diseñando grupos focales con IA: manual de roles y modalidades

Descubre cómo la IA transforma los grupos focales en investigación de diseño. Un manual de roles y modalidades para optimizar la moderación.

2026-06-11 · 3 min

Recuperación del Mundo Latente en Aprendizaje Multimodal Incompleto

LWR: aprendizaje multimodal robusto sin reconstruir datos faltantes. Mejora clasificación de cáncer y predicción de supervivencia con multi-omics incompletos.

2026-06-11 · 2 min

DeRA-MOS: Optimizando evaluación texto-música con ranking desacoplado

DeRA-MOS optimiza la evaluación texto-música con ranking desacoplado y alineación de modalidades para métricas más precisas.

2026-06-10 · 3 min

MMBU: Benchmark masivo multimodal biomédico para modelos visión-lenguaje

Descubre MMBU, el mayor benchmark biomédico multimodal que evalúa la percepción de modelos de IA en 35 submodalidades. ¿Qué tan precisos son los VLMs?

2026-06-08 · 3 min

Ser multimodal o no: recuperación audiovisual adaptativa con detección activa

Descubre cómo la detección activa de modalidad permite recuperar personas en archivos de video con precisión superior al 94%, superando sistemas unimodales y fijos.

2026-06-05 · 2 min

Escala de datos, complejidad y modalidades en generalización visual

Aprende cómo escala de datos, complejidad y modalidades afectan la generalización visual en IA. Resultados clave de un estudio empírico.

2026-06-04 · 2 min

scTranslation: benchmark completo para traducción multiómica unicelular

scTranslation: benchmark integral para traducción multiómica unicelular. Evalúa modelos con datasets y métricas, analizando selección de características y pocos ejemplos. ¡Descubre insights clave!

2026-06-03 · 2 min

Ajuste de instrucción visual alinea modalidades por abstracción

Descubre cómo el ajuste visual alinea imágenes y texto en modelos de lenguaje, optimizando el rendimiento multimodal sin aumentar el tiempo de entrenamiento.

2026-06-03 · 2 min

Revisión y evaluación de avances en inteligencia 3D multimodal

Descubre los últimos avances y métodos en inteligencia 3D multimodal. Revisión exhaustiva de benchmarks y desafíos clave para la conducción autónoma y simulación.

2026-06-03 · 2 min

MASER: Enrutamiento Adaptativo de Modalidades para IA Espacial 3D

MASER: un framework que selecciona la mejor modalidad para responder preguntas espaciales 3D con alta precisión. Basado en Open3D-VQA.

2026-06-02 · 2 min

Interacción de modalidades en MLLMs: descomposición parcial

Entiende cómo la PID descompone la interacción entre modalidades en MLLMs, identificando sinergia y redundancia. Clave para mejorar razonamiento y grounding en IA.

2026-06-02 · 2 min

Optimización encadenada de modalidades en aprendizaje federado multimodal

Descubre cómo FedMChain optimiza el aprendizaje federado multimodal evitando la competencia entre modalidades y mejorando la precisión con menos comunicación.

2026-06-02 · 1 min

V-LynX: alineación de tokens para Video LLMs multimodales

V-LynX alinea tokens en modelos de video para integrar nuevas modalidades (audio, 3D) con eficiencia y rendimiento SOTA. ¡Código abierto!

2026-06-02 · 2 min

MLLM-Microscope: Desvelando la Estructura Interna de los MLLMs

Descubre cómo MLLM-Microscope analiza las representaciones internas de los MLLMs, revelando linealidad, dimensión y anisotropía para mejorar el diseño futuro.

2026-06-02 · 1 min