Mezcla de Comportamiento con Región de Confianza para Destilación On-Policy Descubre cómo TRB mejora la destilación on-policy con mezcla de comportamientos y región de confianza, logrando mejores resultados en razonamiento matemático. 2026-06-01 · 3 min