Estimaciones de ventaja para gradientes de política Max@K Descubre cómo MaxPO optimiza el post-entrenamiento de LLMs con una nueva línea base Leave-Two-Out que centra la ventaja y reduce la varianza del gradiente. 2026-06-05 · 1 min