Lo que los ojos ven, los LLM ignoran: ataques adversariales textuales
Descubre cómo ataques adversariales tipográficos engañan a los sistemas de moderación con IA: contenido dañino invisible para LLM pero obvio para humanos.
Descubre cómo ataques adversariales tipográficos engañan a los sistemas de moderación con IA: contenido dañino invisible para LLM pero obvio para humanos.