Menos es MoE: Recortando expertos en modelos de lenguaje especializados por dominio
Descubre cómo Fisher-MoE recorta dimensiones intermedias para comprimir modelos MoE al 50%, reduciendo memoria un 45% y acelerando inferencia un 21% sin perder capacidad.