Sobreentrenamiento SFT: colapso de entropía e inversión de rango en RLVR
El sobreentrenamiento en SFT puede provocar inversión de rango en GRPO por colapso de entropía. Detecta checkpoints de alto riesgo.
El sobreentrenamiento en SFT puede provocar inversión de rango en GRPO por colapso de entropía. Detecta checkpoints de alto riesgo.