PR2: Replay de Enrutamiento Predictivo para RL en LLMs MoE
Descubre cómo PR2 predice la evolución del enrutador en MoE LLMs, reduciendo el desajuste rollout-entrenamiento y mejorando la estabilidad y rendimiento en RL.
Descubre cómo PR2 predice la evolución del enrutador en MoE LLMs, reduciendo el desajuste rollout-entrenamiento y mejorando la estabilidad y rendimiento en RL.