RLHF en línea regularizado y eficiente con preferencias bilineales Nuevo estudio demuestra que el arrepentimiento polilogarítmico en RLHF es posible con regularización genérica y preferencias bilineales, no solo con KL. 2026-06-17 · 2 min