#juicio online

Más allá de resolver: UOJ-Bench para evaluar generación, hacking y reparación

UOJ-Bench evalúa LLMs en programación competitiva: generación, hacking y reparación. En una prueba, fallan en detectar >50% errores; con escalado superan >90%.

2026-06-12 · 2 min