La evolución de los modelos de lenguaje de gran escala (LLMs) basados en Mixture of Experts (MoE) ha supuesto un avance significativo en la capacidad de procesar tareas complejas con un coste computacional razonable. Sin embargo, la aplicación de aprendizaje por refuerzo (RL) sobre estas arquitecturas introduce un desafío crítico: la inestabilidad en el entrenamiento. Un factor determinante es lo que los investigadores denominan 'deriva del enrutador' (router drift), fenómeno que provoca que las activaciones de los expertos cambien drásticamente entre actualizaciones del modelo, generando una discrepancia entre las fases de recolección de trayectorias (rollout) y de entrenamiento. Esta desalineación perjudica la estimación de pesos de importancia en algoritmos PPO, reduciendo la eficiencia del aprendizaje. Frente a este problema, la técnica de Replay de Enrutamiento Predictivo (PR2) propone un enfoque novedoso: dotar a cada enrutador de un predictor ligero que anticipe la evolución a corto plazo de la distribución de enrutamiento. Durante la fase de rollout, se emplea esa distribución predictiva para seleccionar los expertos más probables tras las actualizaciones, permitiendo que los gradientes lleguen a aquellos que ganarán relevancia. En la fase de entrenamiento, se reproduce la ruta predicha para mantener la coherencia y estabilizar la estimación de importancia. Los resultados experimentales muestran que PR2 reduce la disparidad inducida por el enrutamiento y mejora la estabilidad del RL, logrando un rendimiento superior en benchmarks de razonamiento. Esta innovación tiene implicaciones directas en el desarrollo de sistemas de inteligencia artificial más robustos y escalables, especialmente cuando se integran con plataformas cloud que requieren un despliegue eficiente. En Q2BSTUDIO, como empresa especializada en inteligencia artificial para empresas, entendemos que la optimización del entrenamiento de modelos MoE es clave para ofrecer soluciones de alto valor. Nuestro equipo trabaja en el desarrollo de aplicaciones a medida y software a medida que integran técnicas avanzadas de IA, incluyendo agentes IA capaces de razonar y adaptarse en entornos dinámicos. Además, combinamos estos avances con servicios cloud AWS y Azure para garantizar escalabilidad, y con servicios de inteligencia de negocio como Power BI para extraer conocimiento accionable de los datos. La seguridad también es prioritaria; por ello ofrecemos ciberseguridad y pentesting para proteger las infraestructuras donde se ejecutan estos modelos. La capacidad de anticipar y mitigar la deriva del enrutador no solo mejora el rendimiento de los LLMs, sino que allana el camino hacia sistemas de IA más fiables y eficientes, listos para ser desplegados en entornos empresariales exigentes.