StepOPSD: Destilación de Preferencias en Línea Consciente de los Pasos para el Aprendizaje por Refuerzo de Agentes
StepOPSD: Destilación de preferencias online consciente de pasos para RL de agentes. Optimiza el aprendizaje por refuerzo con destilación paso a paso.