Cuando evaluamos modelos de lenguaje en escenarios contrafactuales, la pregunta clave no es si la salida cambia al alterar un factor, sino si ese cambio es realmente atribuible al factor o a variaciones superficiales del texto. Cualquier intervención sobre una entrada introduce simultáneamente una modificación en la variable de interés y un ruido incidental en la forma superficial. Esto viola el principio de irrelevancia del tratamiento variacional, provocando que los efectos observados puedan ser meros artefactos de la sensibilidad general del modelo. Para aislar el impacto real, necesitamos una línea base que capture cuánto varía la salida simplemente por reformular la entrada sin tocar el factor objetivo. Esta línea base no es trivial: requiere generar paráfrasis que preserven el significado y medir la tasa de predicciones que cambian bajo esas condiciones. Solo entonces podemos comparar, mediante pruebas estadísticas, si la intervención objetivo produce diferencias significativas respecto a ese ruido basal. La elección de métricas también es crítica. Las métricas agregadas, como promedios de cambio, tienden a diluir señales pequeñas pero consistentes. En cambio, las métricas por muestra —observando cómo se comporta cada instancia individual— ofrecen mucha más sensibilidad. Además, el uso de modelos de regresión permite caracterizar no solo si hay efecto, sino su dirección y magnitud, revelando sesgos sutiles que de otro modo pasarían desapercibidos. En proyectos de ia para empresas, donde las decisiones automatizadas afectan directamente a usuarios y procesos, esta rigurosidad metodológica es indispensable. Una evaluación superficial puede llevar a desplegar modelos con sesgos ocultos o a descartar soluciones perfectamente válidas por ruido en la medición. Por ejemplo, al desarrollar aplicaciones a medida con componentes de inteligencia artificial, conviene aplicar marcos de prueba que distingan efectos reales de fluctuaciones fortuitas. Lo mismo ocurre en servicios cloud aws y azure cuando los modelos se integran en pipelines de datos; una mala evaluación puede propagar errores a toda la arquitectura. La ciberseguridad también se beneficia de estos enfoques, al probar ataques adversarios contrafactuales y determinar si un fallo de seguridad es realmente explotable o solo una variación lingüística inocua. En el ámbito de servicios inteligencia de negocio, herramientas como power bi incorporan modelos de lenguaje para generar informes; un análisis contrafactual robusto evita conclusiones falsas sobre correlaciones con datos demográficos. Incluso los agentes IA que interactúan con usuarios requieren validaciones que descarten efectos espurios. En definitiva, la respuesta a la pregunta ¿Comparado con qué? Líneas base y métricas para el prompting contrafactual es que necesitamos una referencia empírica —las paráfrasis— y métricas por muestra, apoyadas en inferencia estadística. Solo así podemos confiar en que los cambios observados reflejan verdaderas dependencias causales y no meras idiosincrasias del modelo frente a variaciones superficiales del lenguaje.