Optimización de políticas basada en modelos en simuladores diferenciables mediante exploración estocástica
<meta name=description content=Aprende a optimizar políticas con exploración estocástica en simuladores diferenciables. Técnica clave para mejorar el aprendizaje por refuerzo.>