Sobreentrenamiento SFT: colapso de entropía e inversión de rango en RLVR El sobreentrenamiento en SFT puede provocar inversión de rango en GRPO por colapso de entropía. Detecta checkpoints de alto riesgo. 2026-06-18 · 1 min