Cuando descubrí las herramientas MCP Model Context Protocol pensé que sería suficiente con permitir que modelos como Claude llamaran a mis APIs. Pronto apareció el desafío real: qué ocurre cuando la herramienta necesita razonar o generar contenido creativo en lugar de ejecutar solo lógica determinista. Había tres alternativas claras: opción 1 codificar la lógica de forma rígida para cada caso; opción 2 incorporar llamadas a mi propio LLM y gestionar claves y costes; opción 3 delegar el razonamiento al modelo que el usuario ya tiene conectado mediante muestreo MCP sampling. Elegí la tercera y la implementé en Cloudflare Workers con dos variantes.

Qué es el muestreo MCP sampling: en un flujo MCP típico el usuario plantea una pregunta al modelo el modelo decide usar una herramienta la herramienta consulta bases de datos o APIs y devuelve datos y el modelo interpreta esos resultados. El problema surge cuando la etapa de la herramienta requiere inteligencia, por ejemplo resumir un documento traducir un texto emitir un juicio sobre sentimiento generar contenido creativo o sintetizar información de múltiples fuentes. El muestreo permite que el servidor de la herramienta envíe prompts de retorno al modelo conectado para que sea este el que haga el trabajo intelectual. Así la herramienta orquesta el flujo y el modelo aporta la inteligencia sin que el servidor de la herramienta tenga que gestionar infraestructura LLM ni claves de API.

Patrón 1 muestreo contextual sobre HTTP en Cloudflare Workers: en entornos serverless en el borde no siempre existe un canal persistente stdio para callbacks. Por eso desarrollé un adaptador HTTP que expone herramientas MCP vía REST y que, en lugar de invocar sampling directo, prepara un contexto de síntesis completo que el modelo puede usar para generar la respuesta. El flujo es: la herramienta realiza búsqueda semántica genera un resumen formateado de los resultados y devuelve tanto los resultados crudos como un campo synthesisContext con un prompt estructurado que el modelo puede usar para sintetizar la respuesta. Ventajas principales accesibilidad global vía HTTP latencia baja por estar en el borde y cero gestión de claves. Limitaciones el modelo cliente decide si sintetiza y cómo interpretar el contexto.

Patrón 2 muestreo verdadero con stdio en servidor local: para casos donde el servidor debe controlar la síntesis conviene usar transporte stdio y callbacks reales del SDK MCP. En ese enfoque el servidor realiza la búsqueda semántica prepara un prompt de síntesis y emplea ctx.sample o mecanismo equivalente para pedir directamente a Claude o al modelo conectado que responda. Beneficios control total sobre el flujo de síntesis comportamiento reproducible y capacidad de exigir formatos concretos de salida. Limitaciones requiere conexión persistente y no es accesible como una simple API HTTP pública.

Caso práctico y rendimiento: en la variante de muestreo contextual sobre Workers la herramienta realiza generación de embeddings y búsqueda vectorial en el borde y formatea los resultados para la síntesis. La latencia típica observada es del orden de 30 a 50 ms globalmente, con la fase de síntesis ejecutada por el modelo del usuario sin añadir latencia al servidor. En producción esto permite APIs públicas y aplicaciones con requisitos de respuesta rápida sin gestionar modelos ni claves.

Ventajas estratégicas de sampling: elimina vendor lock in los usuarios traen su propio modelo ya sea Claude GPT o un Llama local la herramienta se concentra en acceso a datos orquestación y seguridad y la IA aporta razonamiento y creatividad. Esto resulta ideal para tareas no deterministas como resúmenes traducciones reescrituras y análisis de texto no estructurado o para agentes IA que necesiten tomar decisiones informadas por fuentes internas.

Cuándo no usar sampling: no es la solución para operaciones puramente deterministas como cálculos transformaciones de datos o llamadas a APIs que deben devolver resultados exactos. Tampoco es recomendable en rutas de extremo alto volumen sin control de costes ni en caminos extremadamente sensibles a latencia donde cada round trip sea crítico. En esos casos es mejor codificar la lógica o usar procesamiento batch.

Patrones de despliegue combinados: una arquitectura híbrida resulta muy práctica. Mantener un servidor en Workers exponiendo endpoints HTTP con muestreo contextual garantiza cobertura global y baja latencia para clientes web y móviles mientras que disponer de un servidor local con stdio habilita integración profunda con entornos de escritorio y controles finos de síntesis para desarrollos internos o herramientas de productividad.

Sobre la implementación técnica en Workers conviene cuidar la generación de embeddings la indexación vectorial y la forma en que se construye el synthesisContext para que el modelo cliente entienda el formato. En el patrón stdio hay que garantizar la persistencia de la conexión y manejar adecuadamente los tokens de streaming si el SDK lo soporta.

Aplicaciones y casos de uso reales: resúmenes de documentos grandes asistentes de búsqueda semántica reescritura de contenidos generación asistida por IA clasificación semántica y agentes IA que coordinan varios pasos. Estas soluciones son especialmente valiosas para empresas que necesitan integrar inteligencia en aplicaciones a medida sin asumir la operativa completa de modelos.

Q2BSTUDIO y cómo te podemos ayudar: en Q2BSTUDIO somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida con experiencia en integración de inteligencia artificial y arquitecturas serverless en el borde. Diseñamos soluciones que incluyen desde agentes IA para flujos de trabajo empresariales hasta pipelines de inteligencia de negocio y visualizaciones en Power BI. Si necesitas potenciar tus proyectos con IA para empresas o construir agentes IA a medida te podemos acompañar desde la consultoría hasta la entrega final. Descubre nuestros servicios de desarrollo de aplicaciones y software a medida y nuestra oferta de inteligencia artificial para empresas.

Además ofrecemos servicios complementarios como ciberseguridad y pentesting para proteger tus datos y aplicaciones, servicios cloud aws y azure para desplegar en infraestructuras seguras y escalables, y servicios de inteligencia de negocio para convertir datos en decisiones accionables. Palabras clave que dominamos en nuestras implementaciones incluyen aplicaciones a medida software a medida inteligencia artificial ciberseguridad servicios cloud aws azure servicios inteligencia de negocio ia para empresas agentes IA y power bi.

Conclusión: el muestreo MCP abre la puerta a herramientas que orquestan inteligencia sin gestionar LLMs. Con estrategias de muestreo contextual sobre HTTP en el borde y muestreo verdadero en servidores locales puedes ofrecer tanto accesibilidad global como control estricto de síntesis. Si tu proyecto requiere combinar orquestación de datos con capacidades avanzadas de IA en una solución segura y escalable en Q2BSTUDIO podemos ayudarte a diseñarla e implementarla.