SlopCodeBench: Evaluación comparativa de cómo los agentes de codificación se degradan en tareas iterativas de largo horizonte
SlopCodeBench es un benchmark para evaluar agentes en tareas iterativas de largo horizonte, probando su capacidad de planificación y ejecución secuencial.