#gradiente estocástico

Teorema de Polyak-Ruppert para SA-Adam con momento y precondicionamiento adaptativo

Descubre cómo el teorema de Polyak-Ruppert aplica al optimizador SA-Adam con momento, mostrando que la adaptividad es asintóticamente invisible. Implicaciones

2026-06-17 · 2 min

Exploración por ruido y congelación transitoria seleccionan mínimos planos en SGD

Descubre cómo el ruido en el SGD guía la selección de mínimos planos mediante exploración y congelación transitoria, mejorando la generalización en deep

2026-06-17 · 2 min

Sesgo implícito del descenso más pronunciado con gradiente estocástico minilote

Aprende cómo el tamaño de lote, momentum y reducción de varianza moldean el sesgo implícito en el descenso más pronunciado con gradiente estocástico.

2026-06-17 · 2 min

Posteriores Martingala Basados en Puntuación para Redes Neuronales Profundas

Aprende cómo los posteriores martingala (SMP) cuantifican la incertidumbre en DNN de forma eficiente, superando a MCMC.

2026-06-16 · 2 min

Optimización aleatoria sin gradiente en espacios infinito-dimensionales

Descubre un nuevo método de optimización sin gradiente para espacios infinito-dimensionales, que solo requiere derivadas direccionales. Ideal para PINNs y

2026-06-16 · 2 min

Teorema del límite central para estimadores de cuantiles SGD

Nuevo teorema de límite central valida la estimación de cuantiles con SGD. Método recursivo para intervalos de confianza robustos.

2026-06-12 · 2 min

Unificando dinámicas y generalización en la ley de escalado de Transformers

Analizamos la unificación de dinámicas de aprendizaje y generalización en la ley de escalado de Transformers. Descubre fases de transición y leyes de potencia.

2026-06-11 · 2 min

Simplicidad suficiente para inyección de ruido en parámetros SGD

Descubre cómo la inyección de ruido simple en parámetros supera a técnicas complejas en SGD. Mejora el entrenamiento y generalización de redes neuronales con estrategias ligeras.

2026-06-11 · 3 min

Diseño de Denominador Determinista para SGLD Localizado

Aprende a diseñar un denominador determinista para SGLD localizado que evita el cambio de media y mejora la precisión, usando proxy score y cuantiles empíricos.

2026-06-10 · 2 min

$Dimensión fractal de Fourier para predecir la generalización de redes neuronales$

Dimensión fractal de Fourier para predecir la generalización de redes neuronales

Aprende cómo la dimensión fractal de Fourier predice la generalización de redes neuronales sin datos de validación. Nueva métrica basada en frecuencia.

2026-06-09 · 2 min

Mejora en el análisis de convergencia de topología en SGD descentralizado

Descubre cómo un nuevo análisis de convergencia revela el verdadero impacto de la topología de red en el rendimiento del SGD descentralizado. Te sorprenderá.

2026-06-09 · 2 min

OptMuon: Momento Ortogonalizado en Bucle Cerrado para Optimización Estocástica

Descubre OptMuon, optimizador con momento ortogonalizado y control adaptativo en bucle cerrado. Logra tasas óptimas incluso sin ruido. Ideal deep learning.

2026-06-09 · 2 min

SVRG y más allá mediante corrección posterior

Descubre cómo SVRG se relaciona con la corrección posterior bayesiana para acelerar el entrenamiento. Nuevas extensiones tipo Newton y Adam optimizan tu modelo.

2026-06-09 · 2 min

Más allá de los regímenes lineales: Autoencoders con cuello de botella

Descubre cómo el análisis de campo medio explica el entrenamiento de autoencoders no lineales con cuello de botella y su convergencia al óptimo.

2026-06-08 · 3 min

Interpolación de Kernel de Segundo Orden en Machine Learning

Descubre las fórmulas de interpolación de kernel de segundo orden: incorporan curvatura, ruido de gradiente estocástico y momentum para mejorar predicciones en ML.

2026-06-08 · 1 min

Gradiente Descendente Estocástico Descentralizado Acelerado

MG-ADSGD acelera la optimización descentralizada con comunicación eficiente, logrando la mejor complejidad comunicacional para problemas fuertemente convexos.

2026-06-08 · 2 min

Aprendizaje de sistemas dinámicos no lineales controlados de alta dimensión (I)

Descubre cómo las neural ODEs unifican modelos dinámicos y deep learning, con teoría de campos medios para entrenamiento en alta dimensión.

2026-06-08 · 2 min

Envolventes deterministas para SGLD domesticado: reduciendo sesgo

Descubre cómo las envolventes deterministas corrigen el sesgo en SGLD domesticado, mejorando la estabilidad sin distorsionar el gradiente.

2026-06-05 · 1 min

Hamiltonianos supersimétricos y campos gauge no reversibles en Fokker-Planck

Optimiza la dinámica de Fokker-Planck con campos gauge no reversibles, Hamiltonianos supersimétricos y aprendizaje de fuerzas finitas mediante actor-critic.

2026-06-05 · 4 min

DP-MacAdam: Mecanismo Diferencialmente Privado con Recorte y Momentum Adaptativos

Descubre DP-MacAdam, un mecanismo que combina recorte y momentum adaptativos para entrenar modelos con privacidad diferencial y mayor utilidad.

2026-06-05 · 2 min