#dropout-grpo

Dropout-GRPO: Variabilidad estocástica para razonamiento latente continuo

Dropout-GRPO introduce variabilidad estocástica en razonamiento latente para mejorar el aprendizaje por refuerzo grupal. Resultados en GSM8K.