#soft q-learning

Re-ponderación estacionaria produce convergencia local de la iteración Q ajustada suave

La re-ponderación estacionaria logra convergencia local en la iteración Q ajustada suave, mejorando la estabilidad y eficiencia del aprendizaje por refuerzo.

2026-05-11 · 3 min