LoRA-Muon: descenso espectral en el manifold de bajo rango
Descubre LoRA-Muon: optimiza fine-tuning con bajo rango, transfiere tasas de aprendizaje, supera líneas base densas. Eficiente en memoria.
Descubre LoRA-Muon: optimiza fine-tuning con bajo rango, transfiere tasas de aprendizaje, supera líneas base densas. Eficiente en memoria.
Nuevo teorema de límite central valida la estimación de cuantiles con SGD. Método recursivo para intervalos de confianza robustos.
Descubre el Descenso del Espejo en variedades Riemannianas, con garantías de convergencia. Aplicaciones en IA, redes neuronales y optimización a gran escala.
Implementaciones eficientes de SLOPE en R, Python, Julia y C++. Algoritmo híbrido de descenso coordenado para GLM. Benchmarks muestran rendimiento superior. ¡Descúbrelo!
Analizamos la unificación de dinámicas de aprendizaje y generalización en la ley de escalado de Transformers. Descubre fases de transición y leyes de potencia.
Descubre cómo Mirror Descent puede amplificar pequeños errores de inicialización de forma exponencial, afectando la reproducibilidad en entrenamiento de IA y modelos de lenguaje.
Convierte el ruido en descenso: nuevo marco de optimización de orden cero para ajustar LLMs con ahorro de memoria y mayor velocidad de convergencia.
Descubre cómo la inyección de ruido simple en parámetros supera a técnicas complejas en SGD. Mejora el entrenamiento y generalización de redes neuronales con estrategias ligeras.
Nuevo análisis del gradiente natural submuestreado: convergencia global con un mini-batch y ventaja sobre SGD.
Aprende cómo la dimensión fractal de Fourier predice la generalización de redes neuronales sin datos de validación. Nueva métrica basada en frecuencia.
Exploramos la dinámica espectral y geometría del ruido del optimizador Muon: su sesgo hacia espectro plano y cuándo es útil frente a AdamW. Resultados experimentales.
Descubre cómo GD y SGD alcanzan tasas óptimas de generalización en redes ReLU profundas, con resultados minimax comparables a kernels.
Las redes profundas entrenadas con gradiente logran rendimiento óptimo de generalización, comparable a kernel. Un avance clave.
Descubre cómo el descenso de gradiente con pasos grandes puede converger en el borde de estabilidad, mejorando el entrenamiento de redes neuronales.
Descubre cómo el descenso de gradiente con pasos grandes opera en el borde de estabilidad, logrando convergencia no monótona y mejorando la generalización.
El redondeo determinista perjudica la generalización de GD y SGD; el estocástico introduce dependencia dimensional inesperada.
Descubre cómo el análisis de campo medio explica el entrenamiento de autoencoders no lineales con cuello de botella y su convergencia al óptimo.
Descubre cómo las neural ODEs unifican modelos dinámicos y deep learning, con teoría de campos medios para entrenamiento en alta dimensión.
Descubre la equivalencia matemática entre el algoritmo GS y el descenso por gradiente en recuperación de fase. Dos enfoques, una misma fórmula.
El aprendizaje no es solo minimizar la norma o la nitidez. Este estudio revela cómo la tasa de aprendizaje equilibra ambos sesgos implícitos. ¡Lee más!