Hambruna de gradiente en GRPO de recompensa binaria: Por qué falla el centrado de la media del grupo y por qué funciona la solución más simple
Hambruna de gradiente en GRPO binaria: falla del centrado de media y la solución simple para optimizar tu modelo.