MDP-GRPO: Optimización de Políticas Grupales Estabilizada para Instrucciones Multi-Restricción
Descubre MDP-GRPO, un método que estabiliza GRPO bajo recompensas discretas, mejorando el cumplimiento de restricciones hasta un 5%. Ideal para IA confiable.