#medidas sucesoras

Aprendizaje Off-Policy con Zero-Shot

Aprende cómo el método Zero-Shot Off-Policy Learning permite adaptar políticas a nuevas tareas sin reentrenamiento, usando medidas sucesoras y corrección de distribución para una rápida adaptación.

2026-06-02 · 1 min

Nuevo método conecta representaciones sin recompensa con preferencias en RL offline

Nuevo marco de aprendizaje por refuerzo offline que aprende representaciones sin recompensa y las afina con preferencias humanas, superando a métodos tradicionales en eficiencia.

2026-06-02 · 2 min