#descenso

Homotopía Gaussiana Probabilística: continuación para optimización no convexa

PGH es un marco de continuación probabilístico que sesga gradientes hacia mínimos globales en optimización no convexa. Ideal para IA y datos dispersos.

2026-06-08 · 2 min

Gran paso en GD restaura simetría en redes profundas con múltiples vías

Descubre cómo un gran paso en GD restaura simetría en redes profundas, evitando especialización en una vía y promoviendo representaciones compartidas.

2026-06-05 · 2 min

Descenso de gradiente en el borde de la estabilidad: modelo de energía libre

Descubre cómo el descenso de gradiente en el borde de la estabilidad genera oscilaciones persistentes y cómo un modelo de energía libre las predice.

2026-06-05 · 1 min

Escape eficiente de puntos de silla bajo suavidad generalizada

Descubre cómo escapar eficientemente de puntos de silla en funciones no convexas con suavidad generalizada. Nuevos resultados de convergencia para métodos de primer orden.

2026-06-05 · 2 min

Optimización Adaptativa de Rollouts para Post-Entrenamiento con RL

Descubre CERO, método adaptativo que optimiza rollouts en post-entrenamiento de LLMs. Supera a GRPO en razonamiento matemático. ¡Eficiencia mejorada!

2026-06-05 · 3 min

Límites pseudoespectrales en descenso de gradiente acoplado

Descubre cómo los nuevos límites pseudoespectrales revelan amplificación transitoria en gradiente acoplado. Clave para optimización bilevel y adversarial.

2026-06-04 · 2 min

Entrenamiento conjunto de capas en redes ReLU para modelos lineales

Aprende cómo el descenso de gradiente logra convergencia lineal en redes ReLU, evitando puntos silla y alcanzando el mínimo global.

2026-06-04 · 2 min

Bregman y Lévy: Descenso de espejo estocástico con ruido de cola pesada

¿Puede el descenso de espejo estocástico converger con ruido de cola pesada? Sí, usando procesos de Lévy. Optimización robusta para IA y cloud.

2026-06-03 · 2 min

Más allá del gradiente: Adam para máquinas Ising

Optimización Adam para máquinas Ising analógicas: supera al descenso por gradiente, reduce el tiempo de solución y mejora la calidad en problemas como Max-Cut. ¡Descúbrelo!

2026-06-03 · 1 min

Neuronas QIF mejoran el descenso por gradiente en redes de picos

Las neuronas QIF ofrecen paisajes de pérdida menos fragmentados y superan a las LIF en descenso por gradiente exacto. Descubre los resultados.

2026-06-03 · 2 min

Tasas óptimas de generalización del descenso de gradiente en clasificación ReLU profunda

Descubre cómo el descenso de gradiente logra tasas de generalización óptimas en redes ReLU profundas con dependencia polinomial de la profundidad, mejorando resultados previos.

2026-06-03 · 2 min

ParaBlock: Aprendizaje Federado con Bloques Coordinados en Paralelo

Descubre ParaBlock: una técnica innovadora que acelera el aprendizaje federado de grandes modelos de lenguaje al paralelizar comunicación y computación, manteniendo el rendimiento.

2026-06-03 · 2 min

Descifrando el Grokking en Regresión Ridge

Descubre cómo el grokking en regresión ridge demuestra que la generalización tardía no es un fallo de deep learning. Aprende a controlarlo con hiperparámetros.

2026-06-03 · 2 min

Familia flexible de actualizaciones de descenso espejo con entropías de grupo

Descubre cómo las entropías de grupo y la dualidad espejo crean una familia flexible de actualizaciones de descenso espejo para optimizar modelos de ML con mayor adaptabilidad y convergencia.

2026-06-03 · 3 min

GradMem: Contexto en Memoria con Descenso de Gradiente en Tiempo de Prueba

Optimiza LLMs con GradMem: escribe contexto en memoria mediante descenso de gradiente en tiempo de prueba, reduciendo la necesidad de grandes cachés.

2026-06-03 · 2 min

Gradiente natural sin inversión en variedades riemannianas

Descubre cómo optimizar modelos estadísticos en variedades Riemannianas sin invertir la matriz de Fisher. Un método eficiente con convergencia probada.

2026-06-03 · 2 min

Análisis de estabilidad de Sharpness-Aware Minimization

Descubre cómo el algoritmo SAM puede quedarse atrapado en puntos de silla y cómo el momentum y el tamaño de lote ayudan a mejorar su estabilidad y generalización.

2026-06-03 · 2 min

Deep Learning como la construcción disciplinada de objetos dóciles

Exploramos cómo la geometría dócil proporciona un marco matemático para garantizar la convergencia del descenso de gradiente en deep learning, incluso en entornos no lisos y no convexos.

2026-06-02 · 2 min

La geometría del grokking: minimización de norma en la variedad de pérdida cero

Descubre cómo la minimización de norma en la variedad de pérdida cero explica el fenómeno grokking: generalización tardía tras memorización.

2026-06-02 · 2 min

Descenso Espejo Bajo Suavidad Generalizada

Descubre cómo el descenso espejo se adapta a suavidad generalizada para optimizar objetivos no suaves, con aplicaciones en entrenamiento de LLMs. ¡Conoce las nuevas garantías de convergencia!

2026-06-02 · 2 min