#datos de preferencia

ActiveUltraFeedback: generación eficiente de datos de preferencia

ActiveUltraFeedback: aprendizaje activo para generar datos de preferencia con solo un sexto de los datos, mejorando el alineamiento de LLMs.