#grpo binaria

Hambruna de gradiente en GRPO de recompensa binaria: Por qué falla el centrado de la media del grupo y por qué funciona la solución más simple

Hambruna de gradiente en GRPO binaria: falla del centrado de media y la solución simple para optimizar tu modelo.