Revisitando los Gradientes de Política para Clases de Política Restringidas: Escapando de Óptimos Locales Miopes con Gradientes de Política de $k$ pasos
Aprende cómo los gradientes de política de k pasos evitan óptimos locales miopes en clases restringidas, optimizando el aprendizaje por refuerzo.