#craftax

Exploración emergente en RL vía reintentos con gradiente de políticas

Descubre cómo ReMax y RePPO logran exploración emergente en RL optimizando políticas mediante reintentos. Resultados en MinAtar y Craftax.