ExpRL: RL Exploratorio para el Entrenamiento Intermedio de LLMs ExpRL usa recompensas densas para potenciar el razonamiento de LLMs en entrenamiento intermedio, superando a SFT y GRPO. 2026-06-16 · 3 min