UI-in-the-Loop: el paradigma que une pantalla y acción en GUIs
Descubre UI-in-the-Loop (UILoop), nuevo paradigma que permite razonar sobre GUIs de forma interpretable, mejorando comprensión y acción.
Descubre UI-in-the-Loop (UILoop), nuevo paradigma que permite razonar sobre GUIs de forma interpretable, mejorando comprensión y acción.
Descubre v-HUB, el nuevo benchmark para evaluar cómo los modelos multimodales entienden el humor en videos. ¿Puede la IA captar la comedia visual y sonora?
StreamingVLM revoluciona la comprensión de video en tiempo real: procesa flujos infinitos con solo 8 FPS en un H100, superando a GPT-4O mini. ¡Descubre su arquitectura!
Conoce el benchmark TAD para conducción autónoma. Scene-CoT y TCogMap mejoran la comprensión temporal de VLMs hasta un 17.72% sin entrenamiento.
Descubre APB-V: acelera la comprensión de videos largos en múltiples GPUs hasta 12.72x sin pérdida de rendimiento. Ideal para modelos multimodales.
Descubre Grokers: arquitectura que logra comprensión persistente de grafos tipificados con inteligencia en escritura, eliminando costos de LM en consultas. ¡100% hits en KV-cache!
Un estudio revela que el uso de herramientas en agentes multimodales no siempre mejora su rendimiento. Descubre los sorprendentes resultados.
Descubre Luar, un innovador marco que enseña a los modelos de razonamiento cuándo traducir para mejorar el rendimiento en múltiples idiomas. ¡Aprende cómo optimizar la comprensión!
Moment-Video evalúa la capacidad de MLLM para captar eventos visuales que duran solo unos fotogramas. Resultados sorprendentes.
El auge de los agentes de IA promete productividad, pero sacrifica la comprensión profunda. Aprende a evitar la trampa de la fricción.
Descubre cómo MiCU, un LLM especializado, mejora un 20% la precisión en comandos del hogar inteligente y reduce correcciones un 1.57%. ¡Lee más!
MOSS-Audio unifica voz, sonido y música con DeepStack y time markers. Descubre su arquitectura y rendimiento en ASR y razonamiento con audio.
Descubre cómo combinar modelos pequeños y grandes permite detectar errores raros y sutiles en videos de primera persona, equilibrando velocidad y precisión.
Descubre DraDDP, el primer dataset multimodal público para analizar discurso en diálogos multipartes. Basado en series de TV, impulsa la IA conversacional.
Descubre GraphARC, benchmark de razonamiento abstracto en grafos. Revelamos la brecha entre comprensión y ejecución en modelos de IA.
Descubre cómo VLM3 revoluciona el aprendizaje 3D usando modelos de lenguaje visual estándar, superando a modelos expertos sin arquitecturas complejas.
Rationalize: un marco de roles complementarios (Explorador-Guía, etc.) para alinear razonamiento humano e IA. Descubre cómo mejora la comprensión compartida.
Descubre cómo los modelos de lenguaje de código abierto aprenden la semántica de construcciones raras como 'let alone' y 'much less', y su relación con el conocimiento del mundo.
Estudio revela que los LLMs como GPT-o1 fallan al generalizar construcciones frasales sintácticamente idénticas, con una caída de rendimiento del 40%.
MechVQA: el primer dataset completo para evaluar LLMs multimodales en dibujos mecánicos. Supera a modelos cerrados con un 7.57% de precisión extra.