MMR-GRPO: Acelera el entrenamiento GRPO con recompensas basadas en diversidad MMR-GRPO acelera el entrenamiento GRPO priorizando soluciones diversas: reduce un 47.9% pasos y 70.2% tiempo. 2026-06-09 · 2 min