Reutilizar trayectorias en gradientes de política permite convergencia rápida El nuevo algoritmo RT-PG reutiliza trayectorias off-policy para acelerar la convergencia en métodos de gradientes de política, mejorando la eficiencia muestral. 2026-06-04 · 2 min