Entrenando un MoE disperso de 120B con escalado reversible
Aprende a entrenar un MoE de 120B parámetros en un solo nodo GPU usando escalado reversible y cuantización. Optimiza memoria y alcanza pérdida de 1.78.
Aprende a entrenar un MoE de 120B parámetros en un solo nodo GPU usando escalado reversible y cuantización. Optimiza memoria y alcanza pérdida de 1.78.
Entrena un MoE de 120B en una sola máquina con 8 GPUs usando reversibilidad y escalado preservador de estado. Eficiencia sin precedentes.