Aprendizaje on-policy enfocado en decisiones para optimización lineal contextual Nuevo método de gradiente híbrido para optimización lineal contextual con retroalimentación parcial que reduce el arrepentimiento. 2026-06-02 · 2 min