#max@k

Estimaciones de ventaja para gradientes de política Max@K

Descubre cómo MaxPO optimiza el post-entrenamiento de LLMs con una nueva línea base Leave-Two-Out que centra la ventaja y reduce la varianza del gradiente.

2026-06-05 · 1 min