#valor conservador

$Q($\lambda$) de Peng para la Estimación Conservadora de Valor en Aprendizaje por Refuerzo Fuera de Línea$

Q($\lambda$) de Peng para la Estimación Conservadora de Valor en Aprendizaje por Refuerzo Fuera de Línea

Aprende sobre Q(lambda) de Peng para estimacion conservadora de valor en RL offline. Mayor seguridad y robustez.