Aprendizaje off-policy: optimización > estimación en grandes acciones
Descubre por qué la optimización es clave en el aprendizaje off-policy con grandes espacios de acción, y cómo los pesos de verosimilitud simplifican el proceso.
Descubre por qué la optimización es clave en el aprendizaje off-policy con grandes espacios de acción, y cómo los pesos de verosimilitud simplifican el proceso.