Auto-destilación basada en preferencias: más allá del emparejamiento KL mediante regularización de recompensas
<meta content=Descubre la auto-destilación por preferencias que supera el emparejamiento KL integrando regularización de recompensas. Un enfoque avanzado para alinear modelos de lenguaje.>