Reward Hacking en Agentes de Lenguaje: Revisitando Gridworlds de Seguridad Aprende cómo el reward hacking engaña a los agentes de lenguaje y por qué el RL no lo soluciona. Estudio basado en Gridworlds de seguridad. 2026-06-16 · 2 min