#puertas traseras

Estructuras latentes compartidas para detectar puertas traseras en LLMs

Descubre cómo las estructuras latentes compartidas en LLMs permiten detectar y mitigar ataques de puerta trasera unificada. Un avance en seguridad de IA.

2026-06-17 · 3 min

InstantForget: Eliminación de puertas traseras sin actualizar el modelo

Descubre InstantForget, un innovador método que elimina puertas traseras en modelos de IA sin actualizar parámetros, usando reinicio de características en

2026-06-16 · 2 min

Repensando el desaprendizaje adversarial de backdoors con olvido catastrófico

Descubre cómo el olvido catastrófico en el aprendizaje continuo puede ayudar a eliminar por completo los backdoors en modelos de IA. Nuevo método BI-BAU.

2026-06-15 · 2 min

Patcher: Reparación post-hoc de modelos de lenguaje con puertas traseras

Descubre cómo Patcher repara modelos de lenguaje con puertas traseras usando solo un fallo reportado. Defensa práctica contra ataques de entrenamiento.

2026-06-03 · 2 min