#optimizador

Entrenamiento de redes neuronales de energía con Máquina Ising Coherente

Descubre cómo la Máquina Ising Coherente entrena redes neuronales de energía con propagación de equilibrio y Adam, mejorando convergencia y escalabilidad.

2026-06-16 · 2 min

GENIE: optimizador basado en OSGR para generalización de dominio

Descubre GENIE, un optimizador que usa el ratio OSGR para equilibrar actualizaciones de parámetros y mejorar la generalización a dominios no vistos. Supera a

2026-06-16 · 2 min

Hyperball: Optimizadores de Preentrenamiento Fantásticos

Descubre Hyperball, un wrapper que acelera el preentrenamiento de modelos de lenguaje hasta un 30% mejorando la convergencia. Optimizado para Muon y Adam.

2026-06-16 · 2 min

Muon aprende características más robustas y transferibles que Adam

Descubre cómo el optimizador Muon supera a Adam en robustez y transferibilidad de características, según estudios en imágenes, texto y redes neuronales.

2026-06-16 · 3 min

Preservando la plasticidad en aprendizaje continuo mediante isometría dinámica

Descubre cómo preservar la plasticidad en aprendizaje continuo usando isometría dinámica. Optimizador AdamO y regularización para redes neuronales.

2026-06-16 · 2 min

Gefen: Optimizador Estocástico Optimizado

Descubre Gefen, el optimizador que reduce hasta 8x la memoria de AdamW, manteniendo el rendimiento. Ideal para entrenar modelos más grandes con mayor throughput.

2026-06-15 · 3 min

Deep Unfolding escalable para optimizadores cónicos

Descubre cómo el Deep Unfolding escalable acelera optimizadores cónicos hasta 50x, reduciendo memoria y evitando inestabilidades numéricas. Ideal para robótica y control.

2026-06-15 · 2 min

LoRA-Muon: descenso espectral en el manifold de bajo rango

Descubre LoRA-Muon: optimiza fine-tuning con bajo rango, transfiere tasas de aprendizaje, supera líneas base densas. Eficiente en memoria.

2026-06-12 · 3 min

La ballena que superó a la evolución: optimización de conectomas

Descubre cómo la inteligencia de enjambre optimiza memoria en conectomas. Algoritmo ballena logra mejoras de hasta 17x. Estudio en computación de reservorios.

2026-06-10 · 2 min

Unificar comunicaciones y actualizaciones locales en preentrenamiento de LLMs

GASLoC unifica comunicaciones y actualizaciones locales para preentrenar LLMs. Supera algoritmos descentralizados y compite con DiLoCo en eficiencia.

2026-06-10 · 2 min

GASLoC: unificando comunicaciones y actualizaciones locales para LLMs

GASLoC unifica comunicaciones y actualizaciones locales para preentrenar LLMs de forma eficiente, superando a DiLoCo en entornos heterogéneos.

2026-06-10 · 3 min

FOGO: Optimizador de Ortogonalización Consciente del Olvido

Descubre FOGO, un optimizador que previene el olvido en el entrenamiento de modelos de IA, mejorando la convergencia y retención sin almacenar datos. Ideal para aprendizaje continuo.

2026-06-10 · 3 min

Muon²: Potenciando Muon con precondicionamiento adaptativo de segundo momento

Muon² reduce un 40% las iteraciones Newton-Schulz y ahorra hasta 25% del tiempo de entrenamiento. Descubre cómo.

2026-06-09 · 1 min

Dinámica espectral y geometría del ruido de Muon

Exploramos la dinámica espectral y geometría del ruido del optimizador Muon: su sesgo hacia espectro plano y cuándo es útil frente a AdamW. Resultados experimentales.

2026-06-09 · 2 min

Optimizador Muon: Límite de Convergencia y Tamaño de Lote Crítico

El optimizador Muon promete superar a AdamW. Analizamos su convergencia teórica y el tamaño de lote crítico. Experimentos en visión y lenguaje.

2026-06-09 · 3 min

56 optimizadores puestos a prueba en inferencia variacional

Descubre la comparativa de 56 optimizadores para inferencia variacional. Más de 550,000 ejecuciones revelan los mejores sin ajuste manual.

2026-06-09 · 2 min

Aprendizaje federado semidescentralizado sin servidor con optimizadores variados

Descubre SSD-FL: aprendizaje federado semidescentralizado sin servidores que mejora convergencia y eficiencia con optimizadores heterogéneos.

2026-06-08 · 2 min

Leyes de escalado espectral de Muon

Descubre las leyes de escalado espectral de Muon: cómo las iteraciones Newton-Schulz afectan el entrenamiento de LLMs. Ahorra cómputo sin sacrificar calidad.

2026-06-04 · 1 min

Gradiente de Política para MDP Robustos en Tiempo Continuo

Descubre cómo los algoritmos de gradiente de política en tiempo continuo mejoran la robustez en MDPs, con convergencia lineal y menor complejidad muestral.

2026-06-04 · 2 min

Muon supera a Adam: una perspectiva de curvatura

Muon duplica la eficiencia de Adam en LLMs gracias a menor curvatura. Descubre el análisis geométrico detrás de su ventaja.

2026-06-04 · 3 min