DOT-MoE: transporte óptimo diferenciable para modelos MoE Descubre DOT-MoE, un método que convierte modelos de lenguaje densos en MoE usando transporte óptimo diferenciable, manteniendo un 90% del rendimiento con un 50% menos parámetros activos. 2026-06-02 · 2 min