#dependiente de brecha

Q-Learning con arrepentimiento fino basado en brechas

Nuevos algoritmos UCB y AMB mejoran el arrepentimiento fino dependiente de brecha en Q-Learning, superando limitaciones previas en MDP tabulares.