Estructuras latentes compartidas para detectar puertas traseras en LLMs
Descubre cómo las estructuras latentes compartidas en LLMs permiten detectar y mitigar ataques de puerta trasera unificada. Un avance en seguridad de IA.
Descubre cómo las estructuras latentes compartidas en LLMs permiten detectar y mitigar ataques de puerta trasera unificada. Un avance en seguridad de IA.
Descubre InstantForget, un innovador método que elimina puertas traseras en modelos de IA sin actualizar parámetros, usando reinicio de características en
Descubre cómo el olvido catastrófico en el aprendizaje continuo puede ayudar a eliminar por completo los backdoors en modelos de IA. Nuevo método BI-BAU.
Descubre cómo Patcher repara modelos de lenguaje con puertas traseras usando solo un fallo reportado. Defensa práctica contra ataques de entrenamiento.