Más allá de la precisión: Variabilidad de los LLM en el cribado de evidencia para Revisiones Sistemáticas de la Literatura en Ingeniería de Software

En el ámbito de la ingeniería de software, las revisiones sistemáticas de literatura son fundamentales para sintetizar evidencia, pero el cribado manual de estudios consume enormes recursos y está sujeto a sesgos. La adopción de modelos de lenguaje de gran escala (LLMs) promete acelerar esta fase, sin embargo, la experiencia práctica revela que la precisión no es el único factor a considerar: la variabilidad entre modelos, la sensibilidad a los datos de entrada y la reproducibilidad son aspectos críticos que a menudo se subestiman. Un análisis reciente sobre el comportamiento de doce LLMs de distintos proveedores muestra que, incluso con temperatura cero, persiste una heterogeneidad no determinista que afecta la consistencia de los resultados. La disponibilidad del resumen o abstract resulta decisiva para el rendimiento, mientras que agregar título o palabras clave no aporta mejoras robustas. Frente a modelos clásicos como regresión logística o random forest, los LLMs no demuestran una superioridad generalizable, lo que obliga a justificar su uso desde una perspectiva operativa y de gobierno: coste, reproducibilidad y disponibilidad de metadatos. En este contexto, la inteligencia artificial para empresas debe integrarse con estrategias de validación piloto y un reporte explícito de la variabilidad. En Q2BSTUDIO, como empresa de desarrollo de software, abordamos estos desafíos combinando ia para empresas con metodologías rigurosas, ofreciendo aplicaciones a medida que incorporan agentes IA capaces de procesar evidencia científica de forma confiable. La implementación de soluciones de cribado automatizado requiere no solo modelos potentes, sino también una arquitectura que garantice trazabilidad, como la que proporcionan nuestros servicios cloud AWS y Azure, junto con herramientas de inteligencia de negocio como Power BI para monitorizar el desempeño. La ciberseguridad también juega un papel clave al proteger los datos de las revisiones, mientras que el desarrollo de software a medida permite adaptar cada flujo de trabajo a las necesidades específicas del equipo de investigación. En definitiva, ir más allá de la precisión implica entender la variabilidad inherente de los LLMs y construir infraestructuras que mitiguen sus riesgos, un campo donde la experiencia técnica y el diseño centrado en el usuario marcan la diferencia.

Compartir

Comentarios