#completitud de bellman

Complejidad del aprendizaje por refuerzo offline con Q* y cobertura parcial

La combinación de Q* y Bellman completa no es suficiente para RL offline con cobertura parcial. Descubre el nuevo marco teórico y mejoras.