Fundamentos Reversibles: Escalado de Preservación de Estado para MoE de 120B
Entrena un MoE de 120B en una sola máquina con 8 GPUs usando reversibilidad y escalado preservador de estado. Eficiencia sin precedentes.
Entrena un MoE de 120B en una sola máquina con 8 GPUs usando reversibilidad y escalado preservador de estado. Eficiencia sin precedentes.
Descubre cómo NAMEx, basado en teoría de juegos, mejora la colaboración entre expertos en modelos MoE, logrando mayor precisión y robustez en IA.