Convertir el sesgo en errores: Ataques de manipulación de estilo guiados por bandits contra jueces LLM
Ataques de estilo guiados por bandits convierten sesgos en errores en LLM. Descubre cómo estos ataques explotan sesgos y afectan la seguridad de los modelos de lenguaje.