#muestreo voraz

RLHF en línea regularizado y eficiente con preferencias bilineales

Nuevo estudio demuestra que el arrepentimiento polilogarítmico en RLHF es posible con regularización genérica y preferencias bilineales, no solo con KL.

2026-06-17 · 2 min