Tasa robusta O(1/√T) para aprendizaje TD sin proyección
Descubre cómo el algoritmo TD(0) sin proyección logra una tasa de convergencia sublineal robusta, incluso con ruido markoviano. Una mejora clave para el RL.
Descubre cómo el algoritmo TD(0) sin proyección logra una tasa de convergencia sublineal robusta, incluso con ruido markoviano. Una mejora clave para el RL.