#distribución boltzmann

Proyección de Boltzmann con muestreo de referencia para RLVR regularizado por KL: SFT ponderado con coincidencia de objetivo, brechas finitas de one-shot y descenso de espejo de política

Proyección de Boltzmann con muestreo de referencia para RLVR regularizado por KL: SFT ponderado con coincidencia de objetivo, brechas finitas de one-shot y descenso de espejo de política

<meta content=Proyección de Boltzmann con muestreo de referencia para RLVR regularizado por KL. Técnica avanzada para optimizar el aprendizaje por refuerzo mediante regularización KL.>

2026-05-05 · 2 min