Construyendo agentes de inteligencia artificial fiables con MCP: lo que aprendimos al mover Codegen a la fase de planificación
Resumen rápido El permitir que un modelo de lenguaje genere código en tiempo de ejecución parece poderoso hasta que lo ejecutas todos los días a las 09:00. Errores pequeños por paso se acumulan a lo largo de flujos largos y terminan provocando incidentes. En Q2BSTUDIO, empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad y servicios cloud aws y azure, trasladamos la generación de código fuera del runtime y la llevamos a la fase de planificación usando un DSL tipado, componentes validados y MCP. El LLM planifica y compone; un motor determinista ejecuta. Resultado: menos fallos, costes acotados y comportamientos en los que los equipos pueden confiar.
Por qué falla la generación de código en runtime Empezamos como muchos: el modelo escribía código sobre la marcha para invocar herramientas. Tras meses de ajuste vimos la realidad operativa: más del 20 por ciento de fallos end to end por faltas de await, desajustes de tipos y casos límite que colapsaban flujos. Si cada paso acierta un 95 por ciento, un trabajo de 10 pasos solo tiene éxito en torno a 60 por ciento. Esa fiabilidad no sirve para operaciones de negocio.
La transición: planificar primero, ejecutar de forma determinista Cambiamos el momento de la generación: lenguaje natural a DSL con componentes preconstruidos, validación y luego ejecución. El modelo deja de emitir código arbitrario y pasa a seleccionar y ensamblar componentes verificados, como piezas de Lego. La validación previa a la ejecución saca la mayor parte de errores antes de tocar sistemas externos.
Separar control de flujo y flujo de datos El control de flujo es tarea del LLM, que decide pasos y orden. El flujo de datos es runtime y ocurre en estructuras tipadas tipo DataFrame que procesan registros en memoria fuera del contexto del modelo. Esto aporta ventajas operativas: conjuntos de datos que exceden ventanas de contexto, resúmenes al modelo en lugar de volcar datos crudos, vistas previas tipo hoja de cálculo que los usuarios entienden y costes de cómputo y tokens previsibles.
Por qué MCP facilita la ingeniería MCP estandariza cómo los agentes descubren y llaman herramientas. En la práctica nos dio esquemas de herramienta claros, un modo consistente de registrar y dar permisos a servidores y menos adaptadores ad hoc, lo que facilita pruebas. Al construir con MCP en MaybeAI y ahora en Q2BSTUDIO, nos resultó más sencillo imponer tipado y contratos en las integraciones.
Lo que realmente necesitan los usuarios de producción Nuestros usuarios trabajan con Excel y flujos recurrentes: sales ops, analistas de marketing y finanzas. Quieren ejecutar la misma tarea cada lunes a las 09:00 con las mismas garantías. Correos erróneos o datos contaminados en el CRM no son bugs teóricos sino incidentes de negocio. Por eso buscamos: planificación en lenguaje natural con una superficie de uso familiar, ejecución determinista bajo el capó y tipado riguroso con validaciones en los límites.
Boceto de arquitectura Captura de intención Los usuarios describen el trabajo en chat. Mapeamos objetivos, entradas, salidas y restricciones. Planificación LLM más DSL El LLM compone un plan con componentes tipados. Validamos tipos, esquemas y precondiciones. Ejecución motor determinista DataFrames atraviesan pasos con escrituras idempotentes. Concurrencia, reintentos y backoff son política. Observabilidad IDs de trazado por ejecución, errores estructurados con semántica, capacidad de replay y diff.
Lista breve para agentes en producción Validar desde la planificación Entradas y salidas tipadas y checks en cada frontera Componentes preconstruidos y battle tested Semántica de error explícita y ruteo Idempotency keys para escrituras Reintentos presupuestados con backoff Auditoría, replay y runbooks para fallback humano SLAs claros y alertas, por ejemplo percentil 95 de latencia y umbrales de error
Antipatrones aprendidos Evitar tratar flujos largos de negocio como bucles de investigación abiertos, enviar llamadas a herramientas sin tipado desde codegen en runtime, y ocultar datos dentro del contexto del modelo en vez de usar marcos estructurados. Los mensajes de error opacos que no pueden agregarse ni enrutar también son un problema.
Beneficios tras el cambio Estabilidad La mayoría de errores se detectan en la fase de validación y no al escribir en sistemas externos. Control de costes Menos tokens y reintentos innecesarios. Escala Los planes refieren componentes optimizables de forma central. Confianza del usuario Las vistas previas se parecen a las hojas de cálculo que ya conocen.
Cómo lo hacemos en Q2BSTUDIO y cómo podemos ayudarte En Q2BSTUDIO desarrollamos aplicaciones a medida y software a medida integrando arquitecturas de agentes IA robustas y seguras. Si buscas un socio para construir agentes IA fiables o para llevar IA para empresas a producción, podemos ayudar desde la fase de diseño hasta la operación. Con experiencia en servicios cloud aws y azure y en ciberseguridad, abordamos tanto la plataforma como la seguridad operacional. Conecta planificación conversacional y ejecución determinista con nuestras soluciones de inteligencia artificial en servicios de inteligencia artificial y transforma tus procesos con software a medida en desarrollo de aplicaciones y software a medida.
Preguntas abiertas para la comunidad ¿Cómo compones herramientas a escala con MCP? ¿Dónde aplicas tipado: en la frontera del protocolo, dentro de los componentes o en ambos sitios? ¿Has encontrado guardrails que mantengan la flexibilidad en la planificación? Seguimos iterando y MCP evoluciona rápido. Si ejecutas agentes en producción, comparte patrones y errores. Nos interesa comparar experiencias y colaborar en prácticas que hagan a la IA empresarial segura, eficiente y confiable.
Comentarios