Homotopía Gaussiana Probabilística: continuación para optimización no convexa
PGH es un marco de continuación probabilístico que sesga gradientes hacia mínimos globales en optimización no convexa. Ideal para IA y datos dispersos.
PGH es un marco de continuación probabilístico que sesga gradientes hacia mínimos globales en optimización no convexa. Ideal para IA y datos dispersos.
Descubre cómo un gran paso en GD restaura simetría en redes profundas, evitando especialización en una vía y promoviendo representaciones compartidas.
Descubre cómo el descenso de gradiente en el borde de la estabilidad genera oscilaciones persistentes y cómo un modelo de energía libre las predice.
Descubre cómo escapar eficientemente de puntos de silla en funciones no convexas con suavidad generalizada. Nuevos resultados de convergencia para métodos de primer orden.
Descubre CERO, método adaptativo que optimiza rollouts en post-entrenamiento de LLMs. Supera a GRPO en razonamiento matemático. ¡Eficiencia mejorada!
Descubre cómo los nuevos límites pseudoespectrales revelan amplificación transitoria en gradiente acoplado. Clave para optimización bilevel y adversarial.
Aprende cómo el descenso de gradiente logra convergencia lineal en redes ReLU, evitando puntos silla y alcanzando el mínimo global.
¿Puede el descenso de espejo estocástico converger con ruido de cola pesada? Sí, usando procesos de Lévy. Optimización robusta para IA y cloud.
Optimización Adam para máquinas Ising analógicas: supera al descenso por gradiente, reduce el tiempo de solución y mejora la calidad en problemas como Max-Cut. ¡Descúbrelo!
Las neuronas QIF ofrecen paisajes de pérdida menos fragmentados y superan a las LIF en descenso por gradiente exacto. Descubre los resultados.
Descubre cómo el descenso de gradiente logra tasas de generalización óptimas en redes ReLU profundas con dependencia polinomial de la profundidad, mejorando resultados previos.
Descubre ParaBlock: una técnica innovadora que acelera el aprendizaje federado de grandes modelos de lenguaje al paralelizar comunicación y computación, manteniendo el rendimiento.
Descubre cómo el grokking en regresión ridge demuestra que la generalización tardía no es un fallo de deep learning. Aprende a controlarlo con hiperparámetros.
Descubre cómo las entropías de grupo y la dualidad espejo crean una familia flexible de actualizaciones de descenso espejo para optimizar modelos de ML con mayor adaptabilidad y convergencia.
Optimiza LLMs con GradMem: escribe contexto en memoria mediante descenso de gradiente en tiempo de prueba, reduciendo la necesidad de grandes cachés.
Descubre cómo optimizar modelos estadísticos en variedades Riemannianas sin invertir la matriz de Fisher. Un método eficiente con convergencia probada.
Descubre cómo el algoritmo SAM puede quedarse atrapado en puntos de silla y cómo el momentum y el tamaño de lote ayudan a mejorar su estabilidad y generalización.
Exploramos cómo la geometría dócil proporciona un marco matemático para garantizar la convergencia del descenso de gradiente en deep learning, incluso en entornos no lisos y no convexos.
Descubre cómo la minimización de norma en la variedad de pérdida cero explica el fenómeno grokking: generalización tardía tras memorización.
Descubre cómo el descenso espejo se adapta a suavidad generalizada para optimizar objetivos no suaves, con aplicaciones en entrenamiento de LLMs. ¡Conoce las nuevas garantías de convergencia!