Q-Learning con arrepentimiento fino basado en brechas
Nuevos algoritmos UCB y AMB mejoran el arrepentimiento fino dependiente de brecha en Q-Learning, superando limitaciones previas en MDP tabulares.
Nuevos algoritmos UCB y AMB mejoran el arrepentimiento fino dependiente de brecha en Q-Learning, superando limitaciones previas en MDP tabulares.