PR2: Replay de Enrutamiento Predictivo para RL en LLMs MoE Descubre cómo PR2 predice la evolución del enrutador en MoE LLMs, reduciendo el desajuste rollout-entrenamiento y mejorando la estabilidad y rendimiento en RL. 2026-06-02 · 2 min