#anticipación k pasos

RL no episódico de horizonte finito con anticipación de K pasos

Descubre cómo un nuevo algoritmo de RL con anticipación de K pasos y umbral adaptativo logra un rendimiento superior en MDPs de horizonte finito no episódico.

2026-06-16 · 1 min