Aprendizaje Off-Policy con Zero-Shot
Aprende cómo el método Zero-Shot Off-Policy Learning permite adaptar políticas a nuevas tareas sin reentrenamiento, usando medidas sucesoras y corrección de distribución para una rápida adaptación.
Aprende cómo el método Zero-Shot Off-Policy Learning permite adaptar políticas a nuevas tareas sin reentrenamiento, usando medidas sucesoras y corrección de distribución para una rápida adaptación.
Nuevo marco de aprendizaje por refuerzo offline que aprende representaciones sin recompensa y las afina con preferencias humanas, superando a métodos tradicionales en eficiencia.