Razonamiento óptico: imágenes como medio expresivo de razonamiento
El razonamiento óptico usa imágenes como medio de razonamiento, superando al texto en eficiencia y reduciendo tokens un 28% en tareas de IA.
El razonamiento óptico usa imágenes como medio de razonamiento, superando al texto en eficiencia y reduciendo tokens un 28% en tareas de IA.
Hypnos: modelo fundacional multimodal que predice el siguiente token en señales fisiológicas, supera modelos existentes y requiere 100x menos datos etiquetados.
Descubre cómo la selección intrínseca y el remuestreo de partículas mejoran el escalado en tiempo de inferencia sin necesidad de verificación externa, logrando
SpatialWorld es un benchmark unificado que evalúa el razonamiento espacial interactivo de modelos multimodales. GPT-5 solo logra un 17% de éxito. Descubre los desafíos.
Descubre mllm-shap, el primer framework open-source que explica decisiones de modelos multimodales texto-audio usando valores Shapley. ¡Explora su interfaz!
Descubre cómo los valores de Shapley explican modelos multimodales multilingües. Un análisis XAI innovador para mejorar la transparencia en IA.
Descubre DIYHealth Suite: dataset multimodal, modelo adaptativo y benchmark para gestión de salud en casa con IA generativa. Ideal para cuidado personalizado.
Descubre cómo la IA reconoce emociones grupales sin invadir la privacidad individual. Un enfoque multimodal con audio y video para análisis ético.
Estudio mecanicista del ajuste adversarial en Vision Transformers: efecto en robustez, atención y representaciones.
¿Puedes distinguir una foto real de una generada por IA? Un estudio revela que ni humanos ni modelos avanzados son fiables. Descubre por qué.
Explora el sistema de diagnóstico visual con LLM basado en evidencia: interacción multironda, tratamiento multimodal y mayor transparencia en medicina china.
Descubre cómo PTD-PO optimiza políticas multimodales sin revelar respuestas, mejorando el razonamiento complejo.
Nuevo método HSCHG mejora la localización de eventos audiovisuales usando grafos heterogéneos jerárquicos con restricciones semánticas.
Descubre MMBU, el mayor benchmark biomédico multimodal que evalúa la percepción de modelos de IA en 35 submodalidades. ¿Qué tan precisos son los VLMs?
HybridCodec unifica dos paradigmas para codecs de audio: separa semántica y acústica con doble flujo, logrando 3x más velocidad y robustez en entornos multi-idioma.
Descubre EgoPressDiff, un marco de difusión multimodal que estima presión manual con un 34% más de precisión, ideal para AR/VR.
Descubre ViSSRes, un método innovador que reduce las alucinaciones en modelos de video grandes usando residuos espacio-temporales. Mejora la comprensión hasta u
Descubre TokaMind, el primer modelo fundacional multimodal para dinámica de plasma en tokamaks. ¡Código abierto y supera benchmarks!
Descubre OGA-AID, asistente IA con supervisión clínica para análisis de marcha post-ictus, mejorando precisión y reduciendo carga cognitiva.
MCERF logra un +41% de precisión en evaluación de documentos de ingeniería con recuperación multimodal. Descubre el nuevo marco.