#moe · DeepCodeNews

Enrutamiento Sinkhorn Selectivo para Mezclas Dispersas de Expertos

Mejora el rendimiento de mezclas dispersas de expertos con enrutamiento Sinkhorn selectivo. Sin pérdidas auxiliares, mayor eficiencia y robustez.

2026-06-05 · 2 min

Selective Sinkhorn Routing para mejorar mezcla dispersa de expertos

Descubre cómo Selective Sinkhorn Routing optimiza modelos SMoE eliminando pérdidas auxiliares, mejorando eficiencia y precisión en lenguaje e imágenes.

2026-06-05 · 2 min

SpanNorm: Conciliando Estabilidad y Rendimiento en Transformers Profundos

Descubre SpanNorm, la innovadora técnica que equilibra estabilidad y rendimiento en Transformers profundos, superando las limitaciones de PreNorm y PostNorm.

2026-06-05 · 2 min

La selectividad de patrones no es causalidad en LLMs

¿Los patrones selectivos indican causalidad? Este estudio mecanicista entre modelos de 1B revela que no. Compara Pythia, OLMo y OLMoE en tareas compuestas.

2026-06-05 · 4 min

Menos es MoE: Recortando expertos en modelos de lenguaje especializados por dominio

Descubre cómo Fisher-MoE recorta dimensiones intermedias para comprimir modelos MoE al 50%, reduciendo memoria un 45% y acelerando inferencia un 21% sin perder capacidad.

2026-06-05 · 2 min

NVIDIA Nemotron 3 Ultra: modelo MoE de 550B para agentes de larga duración

Descubre Nemotron 3 Ultra de NVIDIA, un modelo MoE de 550B con arquitectura híbrida Mamba-Transformer. Ofrece hasta 6x más rendimiento, 1M de tokens de contexto

2026-06-05 · 3 min

UltraEP: Balanceo de Carga Óptimo para MoE en Nodos a Escala de Rack

Descubre UltraEP, el primer balanceador de carga en tiempo real para MoE que logra un 94.3% del rendimiento ideal en entrenamiento e inferencia con 2560 GPUs.

2026-06-04 · 3 min

Redirección de rechazo consciente de expertos

Descubre cómo los modelos MoE pueden controlar el rechazo a peticiones dañinas. Estudio revela la efectividad de la redirección basada en un solo experto.

2026-06-04 · 2 min

LoopMoE: Unificando Iteración y Mezcla de Expertos en Lenguaje

Descubre cómo LoopMoE integra computación iterativa con Mezcla de Expertos para superar a modelos tradicionales en benchmarks de lenguaje. ¡Mejora de rendimiento a escalas de 3B y 9B!

2026-06-04 · 3 min

Tráfico como árboles: Marco jerárquico basado en grafos para análisis cifrado

Descubre PTGAMoE: marco jerárquico para análisis de tráfico cifrado que preserva semántica y supera a SOTA.

2026-06-04 · 3 min

CoRe-MoE: Locomoción Humanoide con Adaptación de Marcha en Terrenos Variados

Descubre CoRe-MoE, un marco de IA que permite a robots humanoides caminar y correr con fluidez en cualquier terreno. Resultados en simulación y robot real.

2026-06-04 · 2 min

Repensando descomposiciones tensoriales en compresión post-entrenamiento de LLMs

Descubre por qué descomposiciones tensoriales tienen limitaciones en la compresión de LLMs y cómo afectan a modelos densos y MoE. Análisis teórico y práctico.

2026-06-03 · 2 min

AnchorMoE: Clasificación de Series Temporales con MoE Enrutado por Anclajes

Clasificación interpretable de series temporales con AnchorMoE: transparencia ante-hoc sin post-hoc. Ideal para diagnóstico clínico y detección de fallos.

2026-06-03 · 2 min

Rastreo Causal Consciente de Expertos para Recuperación Factual en Modelos MoE

Descubre cómo el rastreo causal consciente de expertos revela qué rutas en modelos MoE como Qwen3 y Mixtral recuperan hechos.

2026-06-03 · 3 min

Skill-MoE: Razonamiento heterogéneo con enrutamiento adaptativo por habilidades

Skill-MoE mejora el razonamiento de modelos de lenguaje combinando expertos por habilidades. Logra hasta un 8% más de precisión en benchmarks con un solo GPU.

2026-06-03 · 2 min

Dialéctica del alineamiento: conocimiento inseguro para enrutamiento dinámico

SafeMoE aprovecha conocimiento inseguro para respuestas seguras e informativas, superando en un 20% la tasa de seguridad. Un nuevo paradigma en alineamiento.

2026-06-02 · 2 min

Filtro de compuerta, no el mensaje: Mezclas nodo-canal en GNNs

FilterMoE revoluciona las GNNs de prepropagación al enrutar filtros por nodos y canales, superando a métodos previos en 9 de 11 benchmarks. ¡Mejora precisión y escalabilidad!

2026-06-02 · 2 min

¿Cuándo surgen los circuitos de atención? Estudio en modelos 1B

Estudio revela cómo y cuándo se forman los circuitos de atención en modelos de lenguaje 1B. Descubre que inducción y atención-sumidero están separadas por orden de magnitud en tokens.

2026-06-02 · 2 min

EMoE: desacuerdo de expertos sin entrenamiento para difusión texto-imagen

Predice la calidad de tus prompts con EMoE: incertidumbre sin entrenamiento en difusión texto-imagen.

2026-06-02 · 2 min

JetBrains lanza Mellum2: modelo MoE 12B para tareas rápidas en pipelines IA

JetBrains lanza Mellum2: modelo MoE de 12B (2.5B activos) para ingeniería de software. Open source bajo Apache 2.0. Ideal para tareas rápidas en pipelines de IA.

2026-06-02 · 3 min