Dropout-GRPO: Variabilidad estocástica para razonamiento latente continuo Dropout-GRPO introduce variabilidad estocástica en razonamiento latente para mejorar el aprendizaje por refuerzo grupal. Resultados en GSM8K. 2026-06-10 · 2 min