#trudi

Políticas de Difusión con Región de Confianza en RL Masivamente Paralelo

Descubre TruDi, un método que combina políticas de difusión con regiones de confianza para lograr un RL on-policy estable y eficiente en simulaciones