Dendrogramas para mezcla de expertos gaussiana con softmax: consistencia sin barridos
Los dendrogramas ofrecen una selección consistente del número de expertos en SGMoE, sin barridos de modelo, superando a AIC/BIC en datos contaminados.
Los dendrogramas ofrecen una selección consistente del número de expertos en SGMoE, sin barridos de modelo, superando a AIC/BIC en datos contaminados.
Descubre VP2O, el nuevo marco de optimización variacional que logra +179 ELO en Codeforces y reduce un 32% los tokens en tareas matemáticas.
Aprende a entrenar un MoE de 120B parámetros en un solo nodo GPU usando escalado reversible y cuantización. Optimiza memoria y alcanza pérdida de 1.78.
Descubre cómo los expertos lineales diminutos con puertas dispersas (sgatlin) mejoran la eficiencia e interpretabilidad de los modelos de lenguaje, sin aumentar costo.
Descubre cómo sgatlin, expertos lineales diminutos con activación dispersa, mejora la eficiencia y la interpretabilidad de los modelos transformer. Una nueva vía hacia IA más comprensible.
Descubre AlphaQ, un método sin calibración que asigna bits a expertos en MoE basado en la pesadez espectral. Logra compresión 4x con precisión casi total.
Descubre cómo los modelos MoE dispersos aprenden expertos especializados e interpretables para modelar preferencias humanas personalizadas sin coste adicional d
Descubre cómo LoopMoE integra computación iterativa con Mezcla de Expertos para superar a modelos tradicionales en benchmarks de lenguaje. ¡Mejora de rendimiento a escalas de 3B y 9B!
Descubre CoRe-MoE, un marco de IA que permite a robots humanoides caminar y correr con fluidez en cualquier terreno. Resultados en simulación y robot real.
Descubre cómo HARC corrige la ruptura de enrutamiento en MoE fusionados sin entrenamiento, usando curvatura hessiana. Ideal para razonamiento y código.
PRISM combina modelos de visión fundacionales con expertos autoorganizados, superando la transferencia negativa para lograr el estado del arte en segmentación.
ProtoAda usa prototipos y consolidación geométrica para evitar interferencias en ajuste continuo multimodal, mejorando rendimiento.
GC-MoE utiliza mezcla de expertos guiada por genómica para predecir expresión génica por célula desde histología, mejorando la precisión en transcripción espacial.
GC-MoE asigna expertos congelados personalizados a cada nodo vial, mejorando precisión en pronóstico de tráfico con solo 17K parámetros.
Descubre DTop-p MoE, un nuevo mecanismo de enrutamiento dinámico que aprende el umbral de probabilidad para controlar la esparcidad, superando a Top-k y Top-p fijo en modelos fundacionales.
Descubre VMoER, un marco bayesiano que mejora la incertidumbre en MoE con un 94% menos error y solo 1% más de FLOPs.