#ponderación de importancia múltiple

Reutilizar trayectorias en gradientes de política permite convergencia rápida

El nuevo algoritmo RT-PG reutiliza trayectorias off-policy para acelerar la convergencia en métodos de gradientes de política, mejorando la eficiencia muestral.

2026-06-04 · 2 min