#mdp débilmente comunicantes

Aprendizaje de políticas con una sola trayectoria en MDP promedio

Aprende a obtener una política óptima desde una sola trayectoria en MDP promedio. Garantías de complejidad de muestra finitas con métodos libres de modelo.

2026-06-16 · 2 min