#cs-rlhf

CS-RLHF: Alineación Segura de LLMs con Optimización de Penalización Fija

Descubre CS-RLHF: alinea LLMs de forma segura con penalización fija, 5x más eficiente contra jailbreaks. ¡Seguridad certificable!