Políticas de co-estado neurales: Estructurando estados ocultos en el aprendizaje por refuerzo recurrente
Optimiza RL recurrente con políticas de co-estado neural que estructuran estados ocultos. Técnica avanzada para mejorar el aprendizaje por refuerzo.