FloatDoor: Backdoors en LLMs disparados por la plataforma
Nuevo ataque FloatDoor: backdoors en LLMs que se activan según la plataforma de despliegue. Explota diferencias numéricas para generar vulnerabilidades.
Nuevo ataque FloatDoor: backdoors en LLMs que se activan según la plataforma de despliegue. Explota diferencias numéricas para generar vulnerabilidades.
Descubre cómo los arrays de floats permiten la inyección indirecta de prompts, evadiendo detectores de texto como Prompt Guard 2. Un estudio con 14,400 pruebas.