Escalado temporal universal de 1/3 en distribuciones puntiagudas El entrenamiento de LLMs converge lentamente por una razón fundamental: softmax y entropía cruzada generan un escalado de pérdida universal 1/3. Descubre las implicaciones. 2026-06-02 · 2 min