Entrenamiento de redes neuronales de energía con Máquina Ising Coherente
Descubre cómo la Máquina Ising Coherente entrena redes neuronales de energía con propagación de equilibrio y Adam, mejorando convergencia y escalabilidad.
Descubre cómo la Máquina Ising Coherente entrena redes neuronales de energía con propagación de equilibrio y Adam, mejorando convergencia y escalabilidad.
Descubre GENIE, un optimizador que usa el ratio OSGR para equilibrar actualizaciones de parámetros y mejorar la generalización a dominios no vistos. Supera a
Descubre Hyperball, un wrapper que acelera el preentrenamiento de modelos de lenguaje hasta un 30% mejorando la convergencia. Optimizado para Muon y Adam.
Descubre cómo el optimizador Muon supera a Adam en robustez y transferibilidad de características, según estudios en imágenes, texto y redes neuronales.
Descubre cómo preservar la plasticidad en aprendizaje continuo usando isometría dinámica. Optimizador AdamO y regularización para redes neuronales.
Descubre Gefen, el optimizador que reduce hasta 8x la memoria de AdamW, manteniendo el rendimiento. Ideal para entrenar modelos más grandes con mayor throughput.
Descubre cómo el Deep Unfolding escalable acelera optimizadores cónicos hasta 50x, reduciendo memoria y evitando inestabilidades numéricas. Ideal para robótica y control.
Descubre LoRA-Muon: optimiza fine-tuning con bajo rango, transfiere tasas de aprendizaje, supera líneas base densas. Eficiente en memoria.
Descubre cómo la inteligencia de enjambre optimiza memoria en conectomas. Algoritmo ballena logra mejoras de hasta 17x. Estudio en computación de reservorios.
GASLoC unifica comunicaciones y actualizaciones locales para preentrenar LLMs. Supera algoritmos descentralizados y compite con DiLoCo en eficiencia.
GASLoC unifica comunicaciones y actualizaciones locales para preentrenar LLMs de forma eficiente, superando a DiLoCo en entornos heterogéneos.
Descubre FOGO, un optimizador que previene el olvido en el entrenamiento de modelos de IA, mejorando la convergencia y retención sin almacenar datos. Ideal para aprendizaje continuo.
Muon² reduce un 40% las iteraciones Newton-Schulz y ahorra hasta 25% del tiempo de entrenamiento. Descubre cómo.
Exploramos la dinámica espectral y geometría del ruido del optimizador Muon: su sesgo hacia espectro plano y cuándo es útil frente a AdamW. Resultados experimentales.
El optimizador Muon promete superar a AdamW. Analizamos su convergencia teórica y el tamaño de lote crítico. Experimentos en visión y lenguaje.
Descubre la comparativa de 56 optimizadores para inferencia variacional. Más de 550,000 ejecuciones revelan los mejores sin ajuste manual.
Descubre SSD-FL: aprendizaje federado semidescentralizado sin servidores que mejora convergencia y eficiencia con optimizadores heterogéneos.
Descubre las leyes de escalado espectral de Muon: cómo las iteraciones Newton-Schulz afectan el entrenamiento de LLMs. Ahorra cómputo sin sacrificar calidad.
Descubre cómo los algoritmos de gradiente de política en tiempo continuo mejoran la robustez en MDPs, con convergencia lineal y menor complejidad muestral.
Muon duplica la eficiencia de Adam en LLMs gracias a menor curvatura. Descubre el análisis geométrico detrás de su ventaja.