Robustez adversarial del control de activación en LLMs
Los ataques adversariales reducen un 64% la robustez del control de activación en LLMs y colapsan la confianza. Descubre su fragilidad estructural.
Los ataques adversariales reducen un 64% la robustez del control de activación en LLMs y colapsan la confianza. Descubre su fragilidad estructural.