Aprendizaje de políticas con una sola trayectoria en MDP promedio
Aprende a obtener una política óptima desde una sola trayectoria en MDP promedio. Garantías de complejidad de muestra finitas con métodos libres de modelo.
Aprende a obtener una política óptima desde una sola trayectoria en MDP promedio. Garantías de complejidad de muestra finitas con métodos libres de modelo.