CS-RLHF: Alineación Segura de LLMs con Optimización de Penalización Fija
Descubre CS-RLHF: alinea LLMs de forma segura con penalización fija, 5x más eficiente contra jailbreaks. ¡Seguridad certificable!
Descubre CS-RLHF: alinea LLMs de forma segura con penalización fija, 5x más eficiente contra jailbreaks. ¡Seguridad certificable!