Guía por recompensa en modelos de flujo y difusión: ¿realmente inclinamos? El reward hacking en difusión proviene de la estimación finita de la función h. Proponemos una corrección sin costo y aclaramos el best-of-n. 2026-06-03 · 3 min