RL sin verificador para LLMs mediante recompensa intrínseca de norma de gradiente RL sin verificador para LLMs: recompensa intrínseca por norma de gradiente optimiza el aprendizaje de forma eficiente y sin verificador externo. 2026-05-15 · 2 min