Aprendizaje de Bandidos en Sistemas Multiagente Abiertos Generales Aprendizaje de bandidos en sistemas multiagente abiertos: optimiza decisiones en entornos dinámicos con técnicas de exploración y explotación. 2026-05-08 · 1 min