#procesos de decisión de markov robustos

Gradiente de Política para MDP Robustos en Tiempo Continuo

Descubre cómo los algoritmos de gradiente de política en tiempo continuo mejoran la robustez en MDPs, con convergencia lineal y menor complejidad muestral.

2026-06-04 · 2 min