#multiplicador de lagrange

CSPO: Optimización de Políticas Sensible a Restricciones para RL Seguro

CSPO optimiza políticas de RL seguro acelerando la recuperación de seguridad y manteniendo la recompensa. Descubre cómo mejora tus modelos de IA.