SG-OPD: Destilación on-policy con puerta de signo y muestreo por fases SG-OPD introduce un verificador binario para mejorar la destilación on-policy, superando a métodos anteriores en problemas de razonamiento matemático. 2026-06-09 · 2 min