El sumidero de atención forja MoE nativo en capas de atención: Entrenamiento consciente del sumidero para abordar el colapso de cabezas
Descubre cómo el entrenamiento consciente evita el colapso de cabezas en modelos MoE nativos, optimizando el sumidero de atención.