Modelo bayesiano no negativo para mitigar hackeo de recompensas en RLHF Descubre cómo el modelo bayesiano no negativo (BNRM) mitiga el hackeo de recompensas en RLHF, mejorando la robustez y la interpretabilidad de los modelos de lenguaje. 2026-06-02 · 2 min