Aprendizaje online en MDPs con transiciones y pérdidas adversariales parciales Descubre nuevos algoritmos para MDPs con transiciones adversariales que logran regret sublineal. Basados en medidas de ocupación condicionadas. 2026-06-02 · 2 min