PERIA: Agente visual con herramientas para razonamiento espacial
Los modelos de lenguaje y visión actuales han demostrado una capacidad impresionante para comprender imágenes y texto, pero cuando se enfrentan a tareas de razonamiento espacial que requieren interacción visual secuencial —como seguir una ruta en un mapa o verificar relaciones entre objetos— su rendimiento cae de forma significativa. Esta limitación radica en que las representaciones implícitas que generan los codificadores visuales no bastan para extraer evidencias espaciales finas. Para superar este obstáculo, investigadores han propuesto un nuevo tipo de agente visual aumentado con herramientas: el agente PERIA (Perception-Interaction-Reason Agent), que combina herramientas ligeras de percepción visual —para exponer evidencia textual, simbólica y espacial— con herramientas de interacción visual que permiten manipular el contexto, trazar trayectorias y verificar relaciones espaciales. El entrenamiento de PERIA utiliza una receta unificada que incluye síntesis supervisada de trayectorias de uso de herramientas, recompensas compuestas y una variante de optimización de políticas (OR-GIGPO) para coordinar múltiples herramientas de forma efectiva. Los resultados experimentales en trece benchmarks muestran que una versión de 8 mil millones de parámetros mejora un 10% en benchmarks dentro de la distribución y un 4,4% en benchmarks fuera de ella respecto a su base, igualando incluso a modelos mucho mayores como GPT-5. Este avance demuestra que la integración de agentes IA con herramientas específicas es clave para resolver problemas complejos de razonamiento espacial. En el ámbito empresarial, la capacidad de construir agentes que razonen espacialmente tiene aplicaciones directas en logística, robótica, realidad aumentada y planificación urbana. Implementar soluciones de este tipo requiere un enfoque robusto de ia para empresas que combine modelos fundacionales con herramientas personalizadas. En Q2BSTUDIO, desarrollamos aplicaciones a medida que integran inteligencia artificial, agentes IA, servicios cloud AWS y Azure, ciberseguridad y servicios de inteligencia de negocio con Power BI, permitiendo a las organizaciones automatizar procesos y obtener ventajas competitivas. La evolución de agentes como PERIA marca el camino hacia sistemas más autónomos y precisos, y contar con un socio tecnológico que domine estas capacidades es fundamental para transformar la innovación en resultados tangibles.
Comentarios