Predicción y mitigación de la susceptibilidad al jailbreak mediante la geometría comportamental de los modelos
Predice y mitiga la susceptibilidad a jailbreak mediante geometría comportamental, un enfoque innovador y eficaz para reforzar la seguridad de modelos de lenguaje.