Más allá de resolver: UOJ-Bench para evaluar generación, hacking y reparación UOJ-Bench evalúa LLMs en programación competitiva: generación, hacking y reparación. En una prueba, fallan en detectar >50% errores; con escalado superan >90%. 2026-06-12 · 2 min