Replay de experiencia a nivel de rollout para GRPO
Descubre cómo el nuevo método de replay priorizado por ventaja mejora la eficiencia muestral en GRPO para LLMs, logrando +4.35% en benchmarks.
Descubre cómo el nuevo método de replay priorizado por ventaja mejora la eficiencia muestral en GRPO para LLMs, logrando +4.35% en benchmarks.