#valor distribucional

DVPO: Optimización de Políticas basada en Modelado de Valor Distribucional para el Post-Entrenamiento de LLM

Optimización DVPO con valor distribucional para post-entrenamiento de LLM. Mejora eficiencia y rendimiento en modelos de lenguaje.