Actualizaciones de objetivo duro promediadas geométricamente para Q-learning lineal
Descubre cómo el promedio geométrico de actualizaciones de objetivo duro estabiliza el Q-learning lineal. Un nuevo enfoque para mejorar el aprendizaje por refuerzo.
Descubre cómo el promedio geométrico de actualizaciones de objetivo duro estabiliza el Q-learning lineal. Un nuevo enfoque para mejorar el aprendizaje por refuerzo.