Repensando la evaluación de RL: ¿Los benchmarks revelan sus fallas? Los benchmarks actuales no revelan las fallas de los métodos de RL en LLMs. Descubre el OPG y principios para evaluar la generalización. 2026-06-02 · 1 min