#descenso

LoRA-Muon: descenso espectral en el manifold de bajo rango

Descubre LoRA-Muon: optimiza fine-tuning con bajo rango, transfiere tasas de aprendizaje, supera líneas base densas. Eficiente en memoria.

2026-06-12 · 3 min

Teorema del límite central para estimadores de cuantiles SGD

Nuevo teorema de límite central valida la estimación de cuantiles con SGD. Método recursivo para intervalos de confianza robustos.

2026-06-12 · 2 min

Descenso del Espejo en Variedades Riemannianas

Descubre el Descenso del Espejo en variedades Riemannianas, con garantías de convergencia. Aplicaciones en IA, redes neuronales y optimización a gran escala.

2026-06-12 · 1 min

Solvers eficientes para SLOPE en R, Python, Julia y C++

Implementaciones eficientes de SLOPE en R, Python, Julia y C++. Algoritmo híbrido de descenso coordenado para GLM. Benchmarks muestran rendimiento superior. ¡Descúbrelo!

2026-06-12 · 2 min

Unificando dinámicas y generalización en la ley de escalado de Transformers

Analizamos la unificación de dinámicas de aprendizaje y generalización en la ley de escalado de Transformers. Descubre fases de transición y leyes de potencia.

2026-06-11 · 2 min

Mirror Descent: sensibilidad exponencial a la inicialización

Descubre cómo Mirror Descent puede amplificar pequeños errores de inicialización de forma exponencial, afectando la reproducibilidad en entrenamiento de IA y modelos de lenguaje.

2026-06-11 · 2 min

Domando el ruido: ajuste fino eficiente en memoria para LLMs

Convierte el ruido en descenso: nuevo marco de optimización de orden cero para ajustar LLMs con ahorro de memoria y mayor velocidad de convergencia.

2026-06-11 · 1 min

Simplicidad suficiente para inyección de ruido en parámetros SGD

Descubre cómo la inyección de ruido simple en parámetros supera a técnicas complejas en SGD. Mejora el entrenamiento y generalización de redes neuronales con estrategias ligeras.

2026-06-11 · 3 min

Análisis sketch-and-project de algoritmos de gradiente natural submuestreados

Nuevo análisis del gradiente natural submuestreado: convergencia global con un mini-batch y ventaja sobre SGD.

2026-06-10 · 2 min

$Dimensión fractal de Fourier para predecir la generalización de redes neuronales$

Dimensión fractal de Fourier para predecir la generalización de redes neuronales

Aprende cómo la dimensión fractal de Fourier predice la generalización de redes neuronales sin datos de validación. Nueva métrica basada en frecuencia.

2026-06-09 · 2 min

Dinámica espectral y geometría del ruido de Muon

Exploramos la dinámica espectral y geometría del ruido del optimizador Muon: su sesgo hacia espectro plano y cuándo es útil frente a AdamW. Resultados experimentales.

2026-06-09 · 2 min

Tasas óptimas de generalización en descenso de gradiente con redes profundas

Descubre cómo GD y SGD alcanzan tasas óptimas de generalización en redes ReLU profundas, con resultados minimax comparables a kernels.

2026-06-08 · 2 min

Generalización en redes profundas: tasas minimax para gradiente

Las redes profundas entrenadas con gradiente logran rendimiento óptimo de generalización, comparable a kernel. Un avance clave.

2026-06-08 · 2 min

Flatland: Las aventuras del descenso de gradiente con pasos grandes

Descubre cómo el descenso de gradiente con pasos grandes puede converger en el borde de estabilidad, mejorando el entrenamiento de redes neuronales.

2026-06-08 · 1 min

Flatland: Las aventuras del descenso de gradiente con pasos grandes

Descubre cómo el descenso de gradiente con pasos grandes opera en el borde de estabilidad, logrando convergencia no monótona y mejorando la generalización.

2026-06-08 · 2 min

Estabilidad y error de generalización de GD y SGD con parámetros de punto fijo

El redondeo determinista perjudica la generalización de GD y SGD; el estocástico introduce dependencia dimensional inesperada.

2026-06-08 · 2 min

Más allá de los regímenes lineales: Autoencoders con cuello de botella

Descubre cómo el análisis de campo medio explica el entrenamiento de autoencoders no lineales con cuello de botella y su convergencia al óptimo.

2026-06-08 · 3 min

Aprendizaje de sistemas dinámicos no lineales controlados de alta dimensión (I)

Descubre cómo las neural ODEs unifican modelos dinámicos y deep learning, con teoría de campos medios para entrenamiento en alta dimensión.

2026-06-08 · 2 min

Equivalencia condicional de algoritmos de recuperación de fase

Descubre la equivalencia matemática entre el algoritmo GS y el descenso por gradiente en recuperación de fase. Dos enfoques, una misma fórmula.

2026-06-08 · 2 min

Sesgos en conflicto en el borde de la estabilidad: norma vs nitidez

El aprendizaje no es solo minimizar la norma o la nitidez. Este estudio revela cómo la tasa de aprendizaje equilibra ambos sesgos implícitos. ¡Lee más!

2026-06-08 · 3 min