#multimodal

MARDoc: Agente de Refinamiento con Memoria para QA Multimodal

Descubre MARDoc, un innovador marco de agente con memoria estructurada que mejora la precisión en QA de documentos largos multimodales. Reduce ruido y optimiza razonamiento.

2026-06-06 · 1 min

GeoVR: Aprendizaje de representaciones geométricas para MLLM espaciales

Descubre GeoVR, un nuevo enfoque que enseña a los modelos multimodales a comprender el espacio 3D usando solo videos 2D. Resultados estatales del arte en razonamiento espacial.

2026-06-06 · 1 min

Cabezas CoRe: eficiencia estructural en LLMs multimodales

Descubre cómo las cabezas CoRe en LLMs multimodales logran eficiencia: al eliminar solo el 5% se degrada el rendimiento, pero su uso acelera la inferencia. Una clave para la optimización.

2026-06-06 · 2 min

DisasterBench: Benchmark multimodal para respuesta UAV en desastres complejos

Descubre DisasterBench, el benchmark multimodal que evalúa el razonamiento en desastres con UAV. DisasterVL, modelo ligero, supera a GPT-4o en precisión y eficiencia.

2026-06-06 · 2 min

Anclaje temporal uno a muchos en video

Descubre el anclaje temporal uno a muchos: localiza múltiples segmentos con una consulta. Supera a Gemini con 43.65% EtF1.

2026-06-06 · 2 min

TempoVLA: Políticas de Visión-Lenguaje-Acción con Velocidad Controlable

TempoVLA controla la velocidad de robots manipuladores: acelera en zonas seguras y desacelera en contacto. Aumenta eficiencia y seguridad.

2026-06-06 · 1 min

Presentamos Gemma 4 12B: un modelo multimodal unificado sin codificador

Descubre Gemma 4 12B: el modelo multimodal sin codificador que ejecuta agentes inteligentes en tu laptop con solo 16GB de RAM. Razonamiento avanzado y código abierto.

2026-06-05 · 1 min

China Mobile Jiangsu y ZTE lanzan agente inteligente para análisis de quejas

China Mobile Jiangsu y ZTE implementan agente inteligente con modelo multimodal para analizar quejas y optimizar la operación de redes. Descubre cómo la IA transforma el mantenimiento.

2026-06-05 · 2 min

Google Gemma 4 12B: Arquitectura, Benchmarks y Guía para Desarrolladores

Descubre Gemma 4 12B, modelo multimodal open-source con 256K de contexto. Guía, arquitectura y benchmarks para devs. ¡Ideal para local y agentes IA!

2026-06-05 · 2 min

Búsqueda Diferencial y Eficiente de Operadores

Descubre cómo la búsqueda diferencial de operadores optimiza la reducción de tokens en modelos multimodales, mejorando el equilibrio precisión-eficiencia.

2026-06-05 · 2 min

TimeClaw: agentes generalistas para series temporales contextualizadas

Descubre TimeClaw: permite a agentes de IA analizar series temporales contextualizadas con herramientas temporales. ¡Optimiza!

2026-06-05 · 2 min

Almieyar-Oryx-BloomBench: Evaluación cognitiva bilingüe de VLMs

BloomBench: el primer benchmark bilingüe para evaluar cognitivamente modelos de visión-lenguaje. Asimetrías clave entre árabe e inglés.

2026-06-05 · 2 min

BloomBench: Benchmark bilingüe multimodal para evaluación cognitiva de VLMs

Descubre BloomBench, benchmark bilingüe (árabe-inglés) que evalúa la capacidad cognitiva de modelos visión-lenguaje. Revela brechas en memoria y creatividad.

2026-06-05 · 1 min

ViCuR: Destilación multimodal on-policy con señales visuales recuperables

ViCuR mejora el razonamiento visual en destilación multimodal on-policy usando señales visuales recuperables, superando métodos en +1.19%.

2026-06-05 · 2 min

ViCuR: Pistas visuales como privilegio recuperable en destilación multimodal

ViCuR usa pistas visuales recuperables para destilación on-policy multimodal, mejorando razonamiento sin sesgos de atajos. Resultados mejores en benchmarks.

2026-06-05 · 3 min

Ser multimodal o no: recuperación audiovisual adaptativa con detección activa

Descubre cómo la detección activa de modalidad permite recuperar personas en archivos de video con precisión superior al 94%, superando sistemas unimodales y fijos.

2026-06-05 · 2 min

Estilización de video en streaming con IA: UNet destilado y MLLM

Alcanza 27 FPS en estilización de video en tiempo real con RTX 3090 mediante inferencia asíncrona y UNet destilado. Optimización con MLLM.

2026-06-05 · 2 min

Predicción solar ultracorta con fusión multimodal y nubes multiescala

Descubre la red adaptativa que mejora la predicción de irradiancia solar a ultra corto plazo con imágenes de nubes.

2026-06-05 · 2 min

GIPO: Optimización de Políticas con Muestreo por Importancia Gaussiano

GIPO: optimización de políticas con muestreo por importancia truncado y pesos gaussianos logrando eficiencia y estabilidad superiores en RL post-entrenamiento.

2026-06-05 · 2 min

¿Las MLLMs entienden cómo el diseño UI guía al usuario?

Descubre WiserUI-Bench, el benchmark que evalúa si las MLLMs realmente comprenden cómo el diseño UI/UX influye en el comportamiento del usuario a través de pruebas A/B reales.

2026-06-05 · 1 min