Exploración Dependiente de los Datos para el Aprendizaje por Refuerzo en Línea a partir de Retroalimentación Humana
Exploración Dependiente de Datos para RLHF en Línea: optimiza el aprendizaje por refuerzo con retroalimentación humana mediante técnicas de exploración basadas en datos.