#pérdidas adversariales

Aprendizaje online en MDPs con transiciones y pérdidas adversariales parciales

Descubre nuevos algoritmos para MDPs con transiciones adversariales que logran regret sublineal. Basados en medidas de ocupación condicionadas.