Reutilizar trayectorias en gradientes de política permite convergencia rápida
El nuevo algoritmo RT-PG reutiliza trayectorias off-policy para acelerar la convergencia en métodos de gradientes de política, mejorando la eficiencia muestral.
El nuevo algoritmo RT-PG reutiliza trayectorias off-policy para acelerar la convergencia en métodos de gradientes de política, mejorando la eficiencia muestral.