#multimodal

Razonamiento óptico: imágenes como medio expresivo de razonamiento

El razonamiento óptico usa imágenes como medio de razonamiento, superando al texto en eficiencia y reduciendo tokens un 28% en tareas de IA.

2026-06-09 · 2 min

Hypnos: representaciones del sueño con predicción del siguiente token

Hypnos: modelo fundacional multimodal que predice el siguiente token en señales fisiológicas, supera modelos existentes y requiere 100x menos datos etiquetados.

2026-06-09 · 2 min

Selección Intrínseca y Remuestreo para Escalado en Inferencia sin Verificación

Descubre cómo la selección intrínseca y el remuestreo de partículas mejoran el escalado en tiempo de inferencia sin necesidad de verificación externa, logrando

2026-06-09 · 2 min

SpatialWorld: Nuevo benchmark para razonamiento espacial interactivo

SpatialWorld es un benchmark unificado que evalúa el razonamiento espacial interactivo de modelos multimodales. GPT-5 solo logra un 17% de éxito. Descubre los desafíos.

2026-06-09 · 2 min

mllm-shap: Explicabilidad con Shapley para modelos multimodales texto-audio

Descubre mllm-shap, el primer framework open-source que explica decisiones de modelos multimodales texto-audio usando valores Shapley. ¡Explora su interfaz!

2026-06-09 · 2 min

Análisis XAI: conectando explicabilidad tradicional y modelos multimodales

Descubre cómo los valores de Shapley explican modelos multimodales multilingües. Un análisis XAI innovador para mejorar la transparencia en IA.

2026-06-09 · 2 min

DIYHealth Suite: dataset, modelo y benchmark para salud en casa

Descubre DIYHealth Suite: dataset multimodal, modelo adaptativo y benchmark para gestión de salud en casa con IA generativa. Ideal para cuidado personalizado.

2026-06-09 · 2 min

Reconocimiento grupal de emociones multimodal y respetuoso con la privacidad

Descubre cómo la IA reconoce emociones grupales sin invadir la privacidad individual. Un enfoque multimodal con audio y video para análisis ético.

2026-06-09 · 2 min

Análisis mecanicista del ajuste adversarial en Vision Transformers

Estudio mecanicista del ajuste adversarial en Vision Transformers: efecto en robustez, atención y representaciones.

2026-06-09 · 1 min

¿Confías en lo que ves? Humanos vs IA en evidencia legal sintética

¿Puedes distinguir una foto real de una generada por IA? Un estudio revela que ni humanos ni modelos avanzados son fiables. Descubre por qué.

2026-06-09 · 2 min

Sistema de diagnóstico y tratamiento visual con LLM basado en evidencia

Explora el sistema de diagnóstico visual con LLM basado en evidencia: interacción multironda, tratamiento multimodal y mayor transparencia en medicina china.

2026-06-08 · 3 min

Enseñar el método, no la respuesta: Destilación privilegiada multimodal

Descubre cómo PTD-PO optimiza políticas multimodales sin revelar respuestas, mejorando el razonamiento complejo.

2026-06-08 · 3 min

Localización de eventos audiovisuales con grafos heterogéneos jerárquicos

Nuevo método HSCHG mejora la localización de eventos audiovisuales usando grafos heterogéneos jerárquicos con restricciones semánticas.

2026-06-08 · 2 min

MMBU: Benchmark masivo multimodal biomédico para modelos visión-lenguaje

Descubre MMBU, el mayor benchmark biomédico multimodal que evalúa la percepción de modelos de IA en 35 submodalidades. ¿Qué tan precisos son los VLMs?

2026-06-08 · 3 min

HybridCodec: Codec Neural de Doble Flujo con Semántica Mejorada

HybridCodec unifica dos paradigmas para codecs de audio: separa semántica y acústica con doble flujo, logrando 3x más velocidad y robustez en entornos multi-idioma.

2026-06-08 · 2 min

EgoPressDiff: Difusión de Video Multimodal para Presión Manual

Descubre EgoPressDiff, un marco de difusión multimodal que estima presión manual con un 34% más de precisión, ideal para AR/VR.

2026-06-08 · 2 min

ViSSRes: residuo espacio-temporal contra alucinaciones en video

Descubre ViSSRes, un método innovador que reduce las alucinaciones en modelos de video grandes usando residuos espacio-temporales. Mejora la comprensión hasta u

2026-06-08 · 2 min