Convergencia en tiempo finito del Q-learning robusto distribucional
Descubre cómo el Q-learning robusto con aproximación lineal converge en tiempo finito bajo incertidumbre chi-cuadrado, usando solo trayectorias markovianas.
Descubre cómo el Q-learning robusto con aproximación lineal converge en tiempo finito bajo incertidumbre chi-cuadrado, usando solo trayectorias markovianas.