Límites de arrepentimiento dependientes de datos y varianza en MDPs tabulares
Algoritmos que logran límites de arrepentimiento adaptativos a datos y varianza en MDPs tabulares online, óptimos en entornos adversariales y estocásticos.
Algoritmos que logran límites de arrepentimiento adaptativos a datos y varianza en MDPs tabulares online, óptimos en entornos adversariales y estocásticos.