Proyección de Boltzmann con muestreo de referencia para RLVR regularizado por KL: SFT ponderado con coincidencia de objetivo, brechas finitas de one-shot y descenso de espejo de política
<meta content=Proyección de Boltzmann con muestreo de referencia para RLVR regularizado por KL. Técnica avanzada para optimizar el aprendizaje por refuerzo mediante regularización KL.>