Aprendizaje en línea para control supervisado de conmutación
Aprende cómo el aprendizaje en línea y bandidos multibrazo identifican controladores en sistemas lineales con garantías finitas y detectan inestabilidad.
Aprende cómo el aprendizaje en línea y bandidos multibrazo identifican controladores en sistemas lineales con garantías finitas y detectan inestabilidad.
Descubre cómo las actualizaciones periódicas y suaves de objetivo garantizan la convergencia del Q-learning lineal, según un riguroso análisis teórico.
Nuevas divergencias Wasserstein y Kalman-Wasserstein mejoran el control KL, ofreciendo soluciones estables incluso con ruido bajo: doble integrador y cart-pole.