Escalado de profundidad adaptativa con redes residuales norm-agnósticas NAG: redes norm-agnósticas escalan profundidad sin crecimiento de norma. Usa Mixture-of-Depths para ahorrar hasta 25% FLOPs, entrenando modelos más profundos. 2026-06-16 · 3 min