Dendrogramas para mezcla de expertos gaussiana con softmax: consistencia sin barridos
Los dendrogramas ofrecen una selección consistente del número de expertos en SGMoE, sin barridos de modelo, superando a AIC/BIC en datos contaminados.
Los dendrogramas ofrecen una selección consistente del número de expertos en SGMoE, sin barridos de modelo, superando a AIC/BIC en datos contaminados.
Descubre cómo identificar componentes latentes en mezclas no etiquetadas usando independencia marginal. Nuevo estimador PM-MMD mejora recuperación sin necesidad de etiquetas.
Descubre VP2O, el nuevo marco de optimización variacional que logra +179 ELO en Codeforces y reduce un 32% los tokens en tareas matemáticas.
Descubre cómo las leyes de escalado explican la mezcla de datos en IA. Aprende sobre competencia de capacidad y reducción de ruido para optimizar modelos.
Descubre por qué los experimentos de mezcla de datos fallan al escalar y cómo el control de repetición ahorra hasta un 94% del presupuesto de tokens.
Descubre cómo representar curvas planas con incertidumbre mediante mezclas gaussianas, una técnica para CAD, robótica y planificación de trayectorias.
Aprende a entrenar un MoE de 120B parámetros en un solo nodo GPU usando escalado reversible y cuantización. Optimiza memoria y alcanza pérdida de 1.78.
Descubre cómo los expertos lineales diminutos con puertas dispersas (sgatlin) mejoran la eficiencia e interpretabilidad de los modelos de lenguaje, sin aumentar costo.
Descubre CoMetaPNS, el nuevo marco de meta-aprendizaje continuo que evita el olvido catastrófico en simulaciones cardíacas personalizadas.
Aprendizaje automático informado por reactividad predice rendimiento de escoria activada para optimizar diseño y reducir CO2.
Descubre cómo sgatlin, expertos lineales diminutos con activación dispersa, mejora la eficiencia y la interpretabilidad de los modelos transformer. Una nueva vía hacia IA más comprensible.
Descubre cómo un autoencoder CNN separa mezclas espectrales en imágenes ATR-μFTIR de pinturas históricas, mejorando la interpretación sin supervisión.
Descubre cómo el aprendizaje automático informado por reactividad predice la resistencia de escorias activadas y optimiza el diseño sostenible.
Descubre cómo la reparametrización relativa optimiza la convergencia en modelos singulares como GMM y redes neuronales. Teoría y experimentos.
Fusión de densidades invariante al orden: límites composicionales y reglas de pooling lineal. Clave para sistemas distribuidos de incertidumbre.
La mezcla de idiomas (Tamil-inglés) desestabiliza la moderación de IA: duplica falsos positivos y carga de revisión. Revela fallos ocultos en clasificación.
Nuevo modelo de IA detecta anomalías en tiempo real en series temporales multivariadas usando clústeres y causalidad, superando a métodos tradicionales.
Mejora el rendimiento de mezclas dispersas de expertos con enrutamiento Sinkhorn selectivo. Sin pérdidas auxiliares, mayor eficiencia y robustez.
Descubre cómo Selective Sinkhorn Routing optimiza modelos SMoE eliminando pérdidas auxiliares, mejorando eficiencia y precisión en lenguaje e imágenes.
ENBP aplica simetría SE(3) a la inferencia probabilística, logrando precisión submilimétrica en moléculas y robótica, 100x más rápido que difusión.