#multimodal

PhotoCraft: Razonamiento Agentivo con Memoria Jerárquica para Búsqueda Visual

Descubre PhotoCraft, un sistema de memoria jerárquica que potencia la búsqueda de imágenes con razonamiento agentivo, logrando mejoras de 18.5% en precisión.

2026-06-03 · 2 min

BotDirector: Narración de robots en realidad simétrica

Descubre cómo BotDirector combina robots, IA y objetos cotidianos para que los niños creen sus propias historias interactivas. ¡Una forma innovadora de contar cuentos!

2026-06-03 · 2 min

VistaHop: Evaluando razonamiento multi-salto para Visual DeepSearch

Descubre VistaHop, el benchmark que evalúa el razonamiento visual multi-salto. Solo el 24% de aciertos revela grandes desafíos para la IA.

2026-06-03 · 2 min

Red Neuronal de Grafos Multimodal para Clasificación de Alzheimer Preclínico

Red neuronal de grafos multimodal con difusión guiada por Transformer mejora la clasificación del Alzheimer preclínico mediante regiones cerebrales clave.

2026-06-03 · 2 min

BilliardPhys-Bench: evaluando el razonamiento físico de los LLM multimodales

BilliardPhys-Bench expone los límites de los LLM multimodales en razonamiento físico, revelando el 'sesgo de estasis' en predicciones de billar sintético.

2026-06-03 · 2 min

Vectores funcionales multimodales para relaciones visuales

Descubre cómo los vectores de función multimodal permiten extraer y optimizar relaciones visuales en modelos de IA, mejorando el razonamiento sin necesidad de reentrenar.

2026-06-03 · 1 min

PolarMem: Memoria latente polarizada sin entrenamiento para VLMs verificables

PolarMem: sistema de memoria gráfica polarizada sin entrenamiento que verifica y reduce contradicciones en modelos de visión-lenguaje para un razonamiento multimodal confiable.

2026-06-03 · 2 min

FeynmanBench: El reto de los LLMs multimodales con diagramas de Feynman

FeynmanBench: 2000+ diagramas evalúan 19 LLMs. 70-95% en reconocimiento local, pero 13-17% en topología. Descubre las limitaciones.

2026-06-03 · 2 min

UI-in-the-Loop: el paradigma que une pantalla y acción en GUIs

Descubre UI-in-the-Loop (UILoop), nuevo paradigma que permite razonar sobre GUIs de forma interpretable, mejorando comprensión y acción.

2026-06-03 · 2 min

Revisión y evaluación de avances en inteligencia 3D multimodal

Descubre los últimos avances y métodos en inteligencia 3D multimodal. Revisión exhaustiva de benchmarks y desafíos clave para la conducción autónoma y simulación.

2026-06-03 · 2 min

Qwen3.7-Plus de Alibaba: multimodal a bajo costo, pero propietario

Nuevo modelo multimodal de Alibaba, Qwen3.7-Plus, a bajo costo pero propietario. Analizamos su rendimiento, precios y licencia.

2026-06-03 · 3 min

Encuesta sobre Reconstrucción 3D con Cámaras de Eventos

Descubre cómo las cámaras de eventos permiten la reconstrucción 3D en condiciones extremas. Encuesta completa de técnicas, datasets y desafíos.

2026-06-02 · 2 min

v-HUB: benchmark de humor en video con visión y sonido

Descubre v-HUB, el nuevo benchmark para evaluar cómo los modelos multimodales entienden el humor en videos. ¿Puede la IA captar la comedia visual y sonora?

2026-06-02 · 2 min

CARES: Selector de Resolución Consciente del Contexto para VLMs

CARES es un módulo ligero que selecciona la resolución mínima para VLMs, reduciendo el cómputo hasta un 80% sin perder precisión. Optimiza tus modelos.

2026-06-02 · 1 min

Efectos de los distractores en modelos de razonamiento visual-lingüístico

Los distractores visuales afectan a los modelos visión-lenguaje de forma distinta a los textuales: reducen precisión sin alargar el razonamiento. Aprende a mitigarlos.

2026-06-02 · 2 min

R3-CoVR: marco zero-shot de razonamiento para videos compuestos

Descubre R3-CoVR, un marco zero-shot sin entrenamiento que alcanza 91.9% R@1 en recuperación de videos compuestos mediante razonamiento multimodal y reordenamiento.

2026-06-02 · 2 min

Alineación de características determina estrategia de fusión multimodal

La alineación de características, no el tamaño de datos, determina la fusión: cross-attention vs concatenación. Estudio con CLIP y ResNet.

2026-06-02 · 2 min

PaCX-MAE: Fusión de rayos X y fisiología en IA médica

PaCX-MAE mejora el diagnóstico de rayos X integrando datos fisiológicos (ECG, laboratorio) sin requerirlos en inferencia. Logra +2.7 AUROC y +6.5 F1 con solo 1% de datos.

2026-06-02 · 2 min

Traducción consciente de densidad de correlaciones espurias en VLMs

Descubre cómo DAT corrige correlaciones espurias en VLMs zero-shot usando densidad local para mejorar precisión sin ajuste fino.

2026-06-02 · 1 min

Descubrimiento automatizado con modelos generativos en diseño de materiales

Explora la revisión de modelos generativos, aprendizaje multimodal y bucles cerrados para el descubrimiento automatizado de materiales en diseño inverso.

2026-06-02 · 2 min