Refinamiento conservador de trayectorias con flujos contrafactuales
Refina trayectorias offline de forma conservadora con flujos contrafactuales. Mejora políticas a partir de datos históricos sin extrapolar. Resultados en D4RL.
Refina trayectorias offline de forma conservadora con flujos contrafactuales. Mejora políticas a partir de datos históricos sin extrapolar. Resultados en D4RL.