#agentes multi-imagen

Codificadores visuales con estado para modelos visión-lenguaje

Descubre cómo los codificadores visuales con estado mejoran los modelos visión-lenguaje en tareas multi-imagen y superan a modelos en radiología y teledetección

2026-06-04 · 3 min