Cómo RecursiveMAS acelera la inferencia multiagente en 2.4 veces y reduce el uso de tokens en un 75%

La evolución de los sistemas multiagente en inteligencia artificial ha encontrado un cuello de botella crítico: la comunicación basada en texto. Cada agente debe generar tokens secuencialmente, lo que incrementa la latencia, dispara los costes computacionales y dificulta el entrenamiento unificado del conjunto. Frente a este desafío, la propuesta RecursiveMAS introduce un cambio de paradigma al permitir que los agentes colaboren intercambiando representaciones latentes continuas en lugar de cadenas de texto. Este enfoque, desarrollado por investigadores de la University of Illinois Urbana-Champaign y Stanford, logra acelerar la inferencia entre 1,2 y 2,4 veces, mientras reduce el uso de tokens hasta un 75% en rondas avanzadas de razonamiento. En entornos empresariales donde los recursos de proceso son un factor limitante, estas ganancias abren la puerta a aplicaciones a medida más complejas y responsivas sin necesidad de escalar infraestructura de forma desproporcionada.

La arquitectura RecursiveMAS se inspira en los modelos de lenguaje recursivos, donde una misma capa se reutiliza para profundizar el razonamiento sin añadir parámetros. Aquí, cada agente funciona como una capa dentro de un bucle de colaboración: en lugar de verbalizar sus conclusiones, transmite sus estados ocultos de alta dimensionalidad a través de un módulo ligero denominado RecursiveLink. Este módulo, de apenas 13 millones de parámetros (0,31% del total del modelo), se entrena mientras los pesos del modelo base permanecen congelados, lo que reduce drásticamente el coste de entrenamiento respecto a métodos tradicionales como fine-tuning completo o LoRA. Solo el último agente, en la ronda final, produce una salida textual. La eficiencia es notable: en tareas como generación de código, razonamiento médico o búsqueda, RecursiveMAS supera en precisión media un 8,3% a las alternativas basadas en texto, y en problemas complejos de matemáticas (como AIME2025) mejora hasta un 18,1% frente a métodos de optimización textual.

Para las empresas que buscan integrar ia para empresas de forma escalable, esta metodología representa un salto cualitativo. Al permitir que agentes de distintos modelos (Qwen, Llama, Gemma, Mistral) colaboren sin generar texto intermedio, se reducen los picos de memoria GPU y se acelera la inferencia, haciendo viables sistemas multiagente en producción que antes eran demasiado lentos o costosos. En Q2BSTUDIO, entendemos que la optimización de recursos es clave en el desarrollo de software a medida, especialmente cuando se combinan capacidades de inteligencia artificial con servicios cloud AWS y Azure. La posibilidad de entrenar solo módulos adaptadores y compartir el mismo modelo base entre varios agentes simplifica el despliegue y el mantenimiento, lo que encaja con nuestra filosofía de ofrecer soluciones eficientes y personalizadas.

Además, la reducción en el consumo de tokens y la mayor velocidad de inferencia tienen un impacto directo en la sostenibilidad económica de los proyectos. Al disminuir la necesidad de computación en la nube, se pueden destinar más recursos a otras áreas como servicios inteligencia de negocio o ciberseguridad, sin descuidar la calidad de los agentes IA. La arquitectura RecursiveMAS también facilita la creación de sistemas que aprenden de forma iterativa sin retocar los modelos base, un enfoque que encaja con las necesidades de aplicaciones a medida que requieren adaptación continua a nuevos escenarios. En definitiva, esta técnica no solo acelera la inferencia y reduce tokens, sino que redefine cómo concebir la colaboración entre agentes, allanando el camino hacia una nueva generación de sistemas autónomos más rápidos, económicos y fáciles de integrar en el ecosistema empresarial.

Compartir

Comentarios