La evaluación de sistemas de inteligencia artificial que deben razonar sobre procedimientos y secuencias de acciones plantea un desafío fundamental: ¿cómo construir conjuntos de preguntas y respuestas que reflejen fielmente el conocimiento que el sistema debe poseer y, al mismo tiempo, se asemejen a las dudas reales de un usuario humano? Esta pregunta, lejos de ser un mero ejercicio académico, tiene implicaciones directas en el desarrollo de asistentes virtuales, plataformas educativas y sistemas de soporte técnico. Para abordarla, es necesario repensar la forma en que generamos y validamos estos datasets, evitando caer en la tentación de priorizar la naturalidad del lenguaje por encima de la solidez representacional.

En la práctica, cuando una empresa necesita construir un sistema capaz de guiar a un operario a través de un protocolo de mantenimiento o de ayudar a un estudiante a resolver un problema matemático paso a paso, el equipo de desarrollo se enfrenta a una decisión crítica: ¿qué estrategia de generación de datos emplear? Las opciones van desde enfoques puramente basados en modelos formales de conocimiento —como los esquemas de Tarea-Método-Conocimiento (TMK)— hasta métodos que extraen preguntas de transcripciones de interacciones reales y luego las filtran o enriquecen. Cada camino ofrece ventajas y limitaciones. Por un lado, la generación estricta a partir de un modelo estructurado garantiza que cada pregunta esté anclada en la representación subyacente, pero puede resultar en enunciados rígidos o poco naturales. Por otro lado, las transcripciones de conversaciones reales aportan frescura y verosimilitud, pero a menudo generan ítems dependientes del contexto o mal fundamentados.

La clave reside en introducir un proceso de validación de anclaje representacional, es decir, verificar que la respuesta correcta a cada pregunta esté efectivamente soportada por el modelo de conocimiento que el sistema utiliza internamente. Sin esta verificación, un dataset puede contener preguntas aparentemente válidas pero que, al profundizar, no se corresponden con la lógica del dominio, lo que lleva a métricas de rendimiento infladas y a sistemas que fallan en producción. Además, es esencial que las preguntas sean autocontenidas: cualquier información necesaria para responder debe estar presente en el enunciado o ser inferible directamente del modelo, sin depender de un diálogo previo o de un contexto no explicitado.

Desde la perspectiva de una empresa de tecnología como Q2BSTUDIO, que desarrolla tanto software a medida como soluciones de inteligencia artificial para empresas, estos principios se aplican de manera concreta en cada proyecto. Por ejemplo, al construir un asistente virtual para un proceso industrial, no solo se requiere modelar el conocimiento procedimental, sino también diseñar un mecanismo de evaluación que garantice que el asistente comprende realmente las secuencias de pasos. Nuestro equipo combina la creación de agentes IA con una validación rigurosa de los datasets de entrenamiento y prueba, empleando técnicas de automatización y pruebas de ciberseguridad para asegurar la integridad de los datos. Asimismo, cuando integramos servicios cloud AWS y Azure, orquestamos pipelines de generación y evaluación que escalan con la demanda, y utilizamos herramientas de servicios inteligencia de negocio como Power BI para monitorizar la calidad de los ítems generados.

Los resultados observados en estudios recientes confirman que la riqueza procedimental de una pregunta no garantiza su validez si no está respaldada por una representación explícita del conocimiento. De hecho, los enfoques que buscan un equilibrio entre naturalidad y anclaje —como la generación consciente del modelo TMK— logran altas tasas de cobertura multi-salto, pero a costa de una menor solidez. Esto refuerza la necesidad de adoptar marcos de validación basados en unidades de evidencia extraíbles del modelo, un paso que muchas organizaciones omiten por considerar que ralentiza el desarrollo, pero que a largo plazo ahorra costes de corrección y mejora la confiabilidad del sistema.

En definitiva, la construcción de datasets de evaluación para razonamiento procedimental no es un proceso que deba tomarse a la ligera. Exige una combinación de rigor técnico, comprensión del dominio y herramientas adecuadas. Las compañías que apuestan por aplicaciones a medida y sistemas de IA verdaderamente útiles deben invertir en metodologías que garanticen que cada pregunta mide lo que pretende medir. Solo así se podrá avanzar hacia asistentes que no solo respondan bien en pruebas controladas, sino que realmente ayuden a los usuarios en situaciones complejas del mundo real.