PolicyGuard: defensa adversarial en tiempo de prueba y por paso para RL
PolicyGuard defiende agentes de RL contra ataques backdoor en tiempo de prueba, usando procesos Gaussianos para detectar anomalías paso a paso. Resultados state-of-the-art.
PolicyGuard defiende agentes de RL contra ataques backdoor en tiempo de prueba, usando procesos Gaussianos para detectar anomalías paso a paso. Resultados state-of-the-art.
Descubre cómo el autoencoder disperso a nivel de paso (SSAE) desentraña el razonamiento de los LLMs, revelando información sobre corrección y lógica. Ideal para interpretabilidad en IA.