#gridworlds

Reward Hacking en Agentes de Lenguaje: Revisitando Gridworlds de Seguridad

Aprende cómo el reward hacking engaña a los agentes de lenguaje y por qué el RL no lo soluciona. Estudio basado en Gridworlds de seguridad.