Sobre la complejidad muestral óptima de los bandidos multi-brazo fuera de línea con regularización KL
<meta content=Complejidad muestral óptima en bandidos multi-brazo offline con regularización KL. Aprende los límites teóricos y algoritmos eficientes para minimizar muestras.>