#best-of-n

Guía por recompensa en modelos de flujo y difusión: ¿realmente inclinamos?

El reward hacking en difusión proviene de la estimación finita de la función h. Proponemos una corrección sin costo y aclaramos el best-of-n.