#algoritmo ucb

Aprendizaje de Envolventes de Valor para RL Online: Un Enfoque Principiado

Aprendizaje de Envolventes de Valor para RL Online: Un Enfoque Principiado

Acelera el RL online con envolventes de valor aprendidas de datos offline. Reduce el arrepentimiento y mejora resultados.

2026-06-17 · 3 min

Aprendizaje en mercados de emparejamiento con bandido

Aprendizaje en mercados de emparejamiento con bandido

Descubre cómo un algoritmo UCB aprende equilibrios en juegos de emparejamiento con retroalimentación de bandido. Resultados sublineales.

2026-06-17 · 3 min

Q-Learning con arrepentimiento fino basado en brechas

Q-Learning con arrepentimiento fino basado en brechas

Nuevos algoritmos UCB y AMB mejoran el arrepentimiento fino dependiente de brecha en Q-Learning, superando limitaciones previas en MDP tabulares.

2026-06-16 · 2 min