Fundamentos Reversibles: Escalado de Preservación de Estado para MoE de 120B
Entrena un MoE de 120B en una sola máquina con 8 GPUs usando reversibilidad y escalado preservador de estado. Eficiencia sin precedentes.
Entrena un MoE de 120B en una sola máquina con 8 GPUs usando reversibilidad y escalado preservador de estado. Eficiencia sin precedentes.