#función de recompensa efectiva

Una visión unificadora sobre la incertidumbre de recompensa en RLHF

Descubre cómo la incertidumbre en RLHF se unifica con un modelo distribucional, mitigando el reward hacking. Clave para optimización robusta.