Límites de arrepentimiento dependientes de datos y varianza en MDPs tabulares Algoritmos que logran límites de arrepentimiento adaptativos a datos y varianza en MDPs tabulares online, óptimos en entornos adversariales y estocásticos. 2026-06-03 · 2 min