Optimalidad asintótica de Thompson Sampling para bandidos aversos al riesgo Un algoritmo de Thompson Sampling no paramétrico logra optimalidad asintótica en bandidos aversos al riesgo con recompensas subgaussianas. 2026-06-09 · 2 min