expo: Optimización de políticas priorizada por exploración mediante regulación adaptativa de KL y muestreo curricular gaussiano
Optimización de políticas con exploración priorizada y KL adaptativa. Estrategia eficiente para aprendizaje por refuerzo avanzado.