Refinamiento de modelos de recompensa de video multidimensionales mediante funciones de influencia desenredadas
Refina modelos de recompensa de video multidimensionales con funciones de influencia desenredadas. Mejora la precisión y eficiencia en aprendizaje por refuerzo.