Snyk VulnBench JS 1.0: ¿Pueden los LLM encontrar los mismos errores dos veces?

En el vertiginoso mundo de la ciberseguridad, la llegada de los modelos de lenguaje de gran escala (LLM) ha prometido revolucionar la detección de vulnerabilidades en el código fuente. Sin embargo, una pregunta crítica que todo equipo de desarrollo debe plantearse es: ¿podemos confiar en que estos sistemas inteligentes encuentren los mismos fallos de forma consistente? Un reciente experimento, basado en el benchmark Snyk VulnBench JS 1.0, arroja luz sobre esta cuestión al someter a prueba la repetibilidad de los análisis de seguridad realizados por agentes de inteligencia artificial. Los resultados revelan una realidad matizada: mientras que los hallazgos que coinciden con herramientas tradicionales de SAST (como Snyk Code) son estables y predecibles, los informes adicionales generados por los LLM varían enormemente de una ejecución a otra. De 250 ejecuciones con el mismo prompt y código JavaScript, 80 de 161 hallazgos únicos no emparejados aparecieron solo una vez en cinco repeticiones idénticas, y apenas 22 se repitieron en todas. En contraste, cuando el modelo Claude coincidía con una referencia de Snyk Code, 134 de 158 hallazgos se reprodujeron en las cinco rondas. Esto sugiere que los LLM son excelentes para detectar patrones de explotación conocidos y de alto impacto, pero su naturaleza probabilística introduce una variabilidad que puede ser problemática en entornos de desarrollo que exigen rigurosidad.

Para las empresas que buscan construir aplicaciones a medida seguras, este hallazgo tiene implicaciones profundas. No se trata de descartar la inteligencia artificial, sino de entender su complementariedad con métodos deterministas. La investigación demuestra que la combinación de revisiones mediante agentes IA con escáneres SAST tradicionales ofrece una cobertura mucho más robusta que cualquiera de las técnicas por separado. Mientras Snyk Code destaca por enumerar sistemáticamente flujos de datos hacia sumideros de riesgo, los LLM aportan una capacidad única para identificar vulnerabilidades complejas o incluso brechas en las reglas del propio SAST (en el estudio, un LLM descubrió una posible carencia de producto en Snyk Code). Por tanto, integrar ia para empresas en los pipelines de seguridad no debería verse como un remplazo, sino como un refuerzo inteligente que, combinado con herramientas como servicios de ciberseguridad y pentesting, puede elevar el nivel de protección.

En Q2BSTUDIO, entendemos que la excelencia en el desarrollo de software a medida exige integrar múltiples capas de defensa. La variabilidad de los LLM no es un defecto insalvable: es una característica que debemos gestionar con procesos de revisión iterativos, pruebas de regresión y la combinación con metodologías deterministas como las que ofrecen los servicios cloud aws y azure para despliegues seguros. Además, la analítica de datos generada por estos escaneos puede potenciarse con servicios inteligencia de negocio como power bi, permitiendo visualizar la evolución de la superficie de ataque a lo largo del tiempo. La clave está en adoptar un enfoque híbrido donde los agentes IA actúen como exploradores creativos de vulnerabilidades, mientras las herramientas SAST garantizan la exhaustividad. Esta sinergia no solo mejora la detectabilidad de fallos, sino que también acelera los ciclos de desarrollo seguro sin sacrificar la profundidad del análisis. Al final, lo que este benchmark nos recuerda es que en ciberseguridad no hay sustituto para la combinación de inteligencia artificial bien diseñada y buenas prácticas de ingeniería.

Compartir

Comentarios