#algoritmos libres de modelo

Convergencia en tiempo finito del Q-learning robusto distribucional

Descubre cómo el Q-learning robusto con aproximación lineal converge en tiempo finito bajo incertidumbre chi-cuadrado, usando solo trayectorias markovianas.

2026-06-16 · 1 min