#mezcla de expertos

Dendrogramas para mezcla de expertos gaussiana con softmax: consistencia sin barridos

Los dendrogramas ofrecen una selección consistente del número de expertos en SGMoE, sin barridos de modelo, superando a AIC/BIC en datos contaminados.

2026-06-09 · 2 min

Optimización de Políticas Proximales Variacionales

Descubre VP2O, el nuevo marco de optimización variacional que logra +179 ELO en Codeforces y reduce un 32% los tokens en tareas matemáticas.

2026-06-09 · 1 min

Entrenando un MoE disperso de 120B con escalado reversible

Aprende a entrenar un MoE de 120B parámetros en un solo nodo GPU usando escalado reversible y cuantización. Optimiza memoria y alcanza pérdida de 1.78.

2026-06-08 · 2 min

Expertos lineales diminutos con puertas dispersas

Descubre cómo los expertos lineales diminutos con puertas dispersas (sgatlin) mejoran la eficiencia e interpretabilidad de los modelos de lenguaje, sin aumentar costo.

2026-06-08 · 2 min

Expertos lineales diminutos con activación dispersa

Descubre cómo sgatlin, expertos lineales diminutos con activación dispersa, mejora la eficiencia y la interpretabilidad de los modelos transformer. Una nueva vía hacia IA más comprensible.

2026-06-08 · 3 min

AlphaQ: Asignación de bits sin calibración para cuantización de MoE

Descubre AlphaQ, un método sin calibración que asigna bits a expertos en MoE basado en la pesadez espectral. Logra compresión 4x con precisión casi total.

2026-06-04 · 3 min

Modelos MoE dispersos: expertos interpretables para preferencias personalizadas

Descubre cómo los modelos MoE dispersos aprenden expertos especializados e interpretables para modelar preferencias humanas personalizadas sin coste adicional d

2026-06-04 · 3 min

LoopMoE: Unificando Iteración y Mezcla de Expertos en Lenguaje

Descubre cómo LoopMoE integra computación iterativa con Mezcla de Expertos para superar a modelos tradicionales en benchmarks de lenguaje. ¡Mejora de rendimiento a escalas de 3B y 9B!

2026-06-04 · 3 min

CoRe-MoE: Locomoción Humanoide con Adaptación de Marcha en Terrenos Variados

Descubre CoRe-MoE, un marco de IA que permite a robots humanoides caminar y correr con fluidez en cualquier terreno. Resultados en simulación y robot real.

2026-06-04 · 2 min

Calibración sin entrenamiento para MoE: evitando ruptura de enrutamiento

Descubre cómo HARC corrige la ruptura de enrutamiento en MoE fusionados sin entrenamiento, usando curvatura hessiana. Ideal para razonamiento y código.

2026-06-03 · 2 min

PRISM: Integración de Modelos de Visión con Expertos Autoorganizados

PRISM combina modelos de visión fundacionales con expertos autoorganizados, superando la transferencia negativa para lograr el estado del arte en segmentación.

2026-06-03 · 1 min

ProtoAda: Expansión Adaptativa Guiada por Prototipos para Ajuste Continuo

ProtoAda usa prototipos y consolidación geométrica para evitar interferencias en ajuste continuo multimodal, mejorando rendimiento.

2026-06-02 · 2 min

GC-MoE: Estimación de Transcripción Espacial de Célula Única desde Histología

GC-MoE utiliza mezcla de expertos guiada por genómica para predecir expresión génica por célula desde histología, mejorando la precisión en transcripción espacial.

2026-06-02 · 1 min

Mezcla de Expertos en GNN Condicionada por Grafos para Pronóstico de Tráfico

GC-MoE asigna expertos congelados personalizados a cada nodo vial, mejorando precisión en pronóstico de tráfico con solo 17K parámetros.

2026-06-01 · 3 min

DTop-p MoE: Control dinámico de esparcidad en preentrenamiento de modelos

Descubre DTop-p MoE, un nuevo mecanismo de enrutamiento dinámico que aprende el umbral de probabilidad para controlar la esparcidad, superando a Top-k y Top-p fijo en modelos fundacionales.

2026-06-01 · 2 min

Enrutamiento Variacional: Marco Bayesiano Escalable para Transformers MoE

Descubre VMoER, un marco bayesiano que mejora la incertidumbre en MoE con un 94% menos error y solo 1% más de FLOPs.

2026-06-01 · 2 min