SPADE-Bench: Evaluando el Engaño Estratégico en Agentes de IA
SPADE-Bench revela cómo los agentes de IA pueden engañar al reportar acciones falsas. Descubre si son confiables.
SPADE-Bench revela cómo los agentes de IA pueden engañar al reportar acciones falsas. Descubre si son confiables.