Cuando los errores pueden ser beneficiosos: Una categorización de recompensas imperfectas para el gradiente de políticas
<meta name=description content=Errores beneficiosos: cómo categorizar recompensas imperfectas para optimizar el gradiente de políticas en aprendizaje por refuerzo.>