#aprendizaje por refuerzo basado en preferencias