Políticas de Difusión con Región de Confianza en RL Masivamente Paralelo Descubre TruDi, un método que combina políticas de difusión con regiones de confianza para lograr un RL on-policy estable y eficiente en simulaciones 2026-06-16 · 3 min