¿Sueñan los agentes con conchas de raíz? Evaluación parcial de los agentes LLM en desafíos de Capture The Flag
Evaluación de agentes LLM en desafíos de Capture The Flag: estudio sobre la efectividad de los modelos de lenguaje en competencias de ciberseguridad.