Internalizar la temperatura: autodestilación para recalentar políticas en RL Descubre cómo TS-OPSD recalienta políticas en RL sin profesor externo, restaurando entropía colapsada para mejorar el razonamiento de LLMs. 2026-06-02 · 2 min