Gradiente de políticas guiado por descenso para el aprendizaje cooperativo multiagente escalable
<meta name=description content=Aprendizaje cooperativo multiagente escalable con gradiente de políticas: optimización de sistemas complejos mediante técnicas avanzadas de refuerzo.>