Rápidas tasas para bandidos contextuales fuera de línea con regularización KL directa bajo concentrabilidad de una sola política
Bandidos contextuales offline: tasas rápidas mediante regularización KL y concentrabilidad. Técnica avanzada para aprendizaje por refuerzo offline eficiente.