#inconsistencia de valor

VIPO: Aprendizaje por Refuerzo Offline Penalizado por Inconsistencia de la Función de Valor

VIPO: método de aprendizaje offline que penaliza la inconsistencia de valor. Optimiza políticas en RL offline sin interacción en línea.