Mejora del auto-juego mediante refinamiento ponderado por ventaja en el ajuste fino federado en línea de modelos de lenguaje grande con retroalimentación en tiempo real
<meta content=Optimiza el auto-juego mediante refinamiento ponderado en federación online. Mejora la eficiencia y precisión en entornos distribuidos.>