#política activa

Aprendizaje on-policy enfocado en decisiones para optimización lineal contextual

Nuevo método de gradiente híbrido para optimización lineal contextual con retroalimentación parcial que reduce el arrepentimiento.