#preservación de estado

Entrenando un MoE disperso de 120B con escalado reversible

Aprende a entrenar un MoE de 120B parámetros en un solo nodo GPU usando escalado reversible y cuantización. Optimiza memoria y alcanza pérdida de 1.78.

2026-06-08 · 2 min

Fundamentos Reversibles: Escalado de Preservación de Estado para MoE de 120B

Entrena un MoE de 120B en una sola máquina con 8 GPUs usando reversibilidad y escalado preservador de estado. Eficiencia sin precedentes.

2026-06-08 · 3 min