MARDoc: Agente de Refinamiento con Memoria para QA Multimodal
Descubre MARDoc, un innovador marco de agente con memoria estructurada que mejora la precisión en QA de documentos largos multimodales. Reduce ruido y optimiza razonamiento.
Descubre MARDoc, un innovador marco de agente con memoria estructurada que mejora la precisión en QA de documentos largos multimodales. Reduce ruido y optimiza razonamiento.
Descubre GeoVR, un nuevo enfoque que enseña a los modelos multimodales a comprender el espacio 3D usando solo videos 2D. Resultados estatales del arte en razonamiento espacial.
Descubre cómo las cabezas CoRe en LLMs multimodales logran eficiencia: al eliminar solo el 5% se degrada el rendimiento, pero su uso acelera la inferencia. Una clave para la optimización.
Descubre DisasterBench, el benchmark multimodal que evalúa el razonamiento en desastres con UAV. DisasterVL, modelo ligero, supera a GPT-4o en precisión y eficiencia.
Descubre el anclaje temporal uno a muchos: localiza múltiples segmentos con una consulta. Supera a Gemini con 43.65% EtF1.
TempoVLA controla la velocidad de robots manipuladores: acelera en zonas seguras y desacelera en contacto. Aumenta eficiencia y seguridad.
Descubre Gemma 4 12B: el modelo multimodal sin codificador que ejecuta agentes inteligentes en tu laptop con solo 16GB de RAM. Razonamiento avanzado y código abierto.
China Mobile Jiangsu y ZTE implementan agente inteligente con modelo multimodal para analizar quejas y optimizar la operación de redes. Descubre cómo la IA transforma el mantenimiento.
Descubre Gemma 4 12B, modelo multimodal open-source con 256K de contexto. Guía, arquitectura y benchmarks para devs. ¡Ideal para local y agentes IA!
Descubre cómo la búsqueda diferencial de operadores optimiza la reducción de tokens en modelos multimodales, mejorando el equilibrio precisión-eficiencia.
Descubre TimeClaw: permite a agentes de IA analizar series temporales contextualizadas con herramientas temporales. ¡Optimiza!
BloomBench: el primer benchmark bilingüe para evaluar cognitivamente modelos de visión-lenguaje. Asimetrías clave entre árabe e inglés.
Descubre BloomBench, benchmark bilingüe (árabe-inglés) que evalúa la capacidad cognitiva de modelos visión-lenguaje. Revela brechas en memoria y creatividad.
ViCuR mejora el razonamiento visual en destilación multimodal on-policy usando señales visuales recuperables, superando métodos en +1.19%.
ViCuR usa pistas visuales recuperables para destilación on-policy multimodal, mejorando razonamiento sin sesgos de atajos. Resultados mejores en benchmarks.
Descubre cómo la detección activa de modalidad permite recuperar personas en archivos de video con precisión superior al 94%, superando sistemas unimodales y fijos.
Alcanza 27 FPS en estilización de video en tiempo real con RTX 3090 mediante inferencia asíncrona y UNet destilado. Optimización con MLLM.
Descubre la red adaptativa que mejora la predicción de irradiancia solar a ultra corto plazo con imágenes de nubes.
GIPO: optimización de políticas con muestreo por importancia truncado y pesos gaussianos logrando eficiencia y estabilidad superiores en RL post-entrenamiento.
Descubre WiserUI-Bench, el benchmark que evalúa si las MLLMs realmente comprenden cómo el diseño UI/UX influye en el comportamiento del usuario a través de pruebas A/B reales.