Introducción: Las ataques de inyección de prompts son una amenaza creciente en arquitecturas basadas en agentes IA y herramientas internas. A partir de un PoC inspirado en un artículo sobre MCP Prompt Injection se demuestra cómo un atacante puede enumerar y filtrar herramientas internas de un agente MCP mediante entradas de texto manipuladas, con impacto real en entornos como la banca.

Escenario: Imagine un agente bancario que usa MCP y dispone de herramientas para gestionar transacciones. Un campo aparentemente inocuo como el concepto de una operación puede convertirse en un vector de ataque que obliga al agente a revelar su conjunto interno de funciones, parámetros y descripciones.

Implementación del PoC: Servidor MCP construido con el SDK oficial exponiendo herramientas como last_concept y add_concept. Cliente basado en LangGraph, Ollama y un modelo gpt-oss. Vector de ataque: inyección de prompt en el campo concept para forzar la enumeración de herramientas y fuga de metadatos.

Cómo funciona el ataque: El atacante añade un nuevo ingreso pero en lugar de un concepto normal inyecta una instrucción que solicite la lista completa de herramientas y descripciones. El agente ejecuta add_concept y almacena la metainformación filtrada como concepto. Consultando last_concept se obtiene la fuga y se confirma la vulnerabilidad.

Demostración: Paso 1 inyección poe inject Resultado: el concepto añadido contiene la lista detallada de herramientas internas y sus descripciones. Paso 2 consulta last_concept Resultado: se recupera la información filtrada, demostrando que campos aparentemente inofensivos pueden exfiltrar metadatos sensibles.

Qué demuestra esto: Filtración de herramientas internas mediante prompt injection. Entradas vulnerables: campos de texto sin validación. Necesidad de protecciones: validación, saneamiento de entradas, políticas de acceso a funciones y limitación de lo que los agentes pueden declarar en respuestas.

Recomendaciones prácticas: aplicar guardrails de seguridad en el runtime del agente, usar listas blancas de funciones expuestas, sanitizar y normalizar entradas, auditar logs y simular ataques de inyección en entornos controlados como parte del proceso de desarrollo seguro.

Sobre Q2BSTUDIO: En Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida especialistas en inteligencia artificial, ciberseguridad y servicios cloud aws y azure. Implementamos soluciones de software a medida, agentes IA y proyectos de ia para empresas que incluyen análisis de riesgos y pruebas de seguridad. Si necesita protección frente a vectores de inyección y diseño seguro de agentes, nuestras capacidades en pentesting y hardening complementan proyectos de inteligencia de negocio y visualización con power bi. Conozca nuestras soluciones de IA aquí servicios de inteligencia artificial y descubra nuestras ofertas de seguridad en ciberseguridad y pentesting.

Conclusión: Este PoC subraya un riesgo real en sistemas basados en agentes. Antes de desplegar en producción es imprescindible implementar controles robustos de validación y seguridad para evitar la fuga de metadatos de herramientas internas, proteger datos sensibles y asegurar la confianza en soluciones de aplicaciones a medida y software a medida.