Activación dispersa en modelos MoE: Extendiendo la ReLUficación a la mezcla de expertos
Extensión de la ReLUficación a la mezcla de expertos: en este artículo se explora cómo aplicar la función ReLU a la popular técnica de mezcla de expertos, mejorando así la eficiencia y rendimiento del modelo.