BiasGRPO: mitigación de sesgos en alta varianza con optimización grupal Descubre cómo BiasGRPO estabiliza la mitigación de sesgos con optimización grupal relativa, superando a DPO y PPO en benchmarks. 2026-06-04 · 3 min