La evolución de los modelos de lenguaje basados en mezcla de expertos ha revelado un desafío fundamental en la asignación de recursos computacionales. Tradicionalmente, cada capa de un transformador posee su propio conjunto de expertos, lo que fuerza un crecimiento lineal de parámetros con la profundidad del modelo. Sin embargo, investigaciones recientes demuestran que esta asignación por capa no es óptima: los expertos en capas profundas pueden ser reemplazados por rutas aleatorias con una pérdida mínima de precisión. Este hallazgo motivó el diseño de arquitecturas que tratan la capacidad de expertos como un presupuesto global, no segmentado por capa. Un enfoque innovador consiste en un único pool compartido de expertos al que acceden todas las capas mediante enrutadores independientes. Este diseño permite que los parámetros de expertos crezcan de forma sublineal con la profundidad, manteniendo o mejorando el rendimiento frente a las arquitecturas convencionales. Para garantizar un entrenamiento estable bajo este esquema compartido, se incorporan funciones de pérdida auxiliares que equilibran la carga entre expertos y mecanismos de enrutamiento normalizados que proporcionan selección dispersa y escalable. Los resultados experimentales muestran mejoras consistentes en pérdida de validación y perplejidad en diversas escalas de modelo, incluso utilizando únicamente entre el 40% y el 67% del presupuesto de parámetros expertos de las variantes tradicionales. Esto tiene implicaciones directas para el desarrollo de aplicaciones a medida en inteligencia artificial, donde la eficiencia computacional es crítica. En Q2BSTUDIO, comprendemos que la optimización de recursos es esencial para ofrecer soluciones competitivas. Nuestra experiencia en ia para empresas nos permite asesorar a organizaciones en la implementación de arquitecturas avanzadas como estas, que maximizan el rendimiento con un menor coste de parámetros. Además, la capacidad de reducir la huella computacional sin sacrificar calidad resulta especialmente relevante en entornos donde los servicios cloud aws y azure se utilizan para desplegar modelos a gran escala. La gestión eficiente de los pools de expertos también abre nuevas posibilidades para la creación de agentes IA que operen con restricciones de latencia y memoria, campos en los que ofrecemos soluciones personalizadas mediante servicios cloud aws y azure. Desde una perspectiva de negocio, esta arquitectura permite escalar modelos de lenguaje con un uso más racional de los recursos, facilitando la integración con sistemas de inteligencia de negocio como Power BI para análisis predictivo. Asimismo, la reducción de parámetros expertos disminuye la superficie de ataque, lo que se alinea con nuestras prácticas en ciberseguridad para proteger modelos desplegados en producción. En resumen, compartir expertos globalmente no solo es viable, sino que representa un avance hacia modelos más eficientes y sostenibles, un principio que aplicamos en cada proyecto de software a medida que desarrollamos en Q2BSTUDIO.