Optimización de preferencias directas para RL jerárquico habilitado para primitivas: un enfoque bilével Mejora las preferencias directas en el aprendizaje por refuerzo jerárquico con este estudio de optimización en español. 2026-04-17 · 2 min