Procesos Gaussianos Derivativos Escalables con Reducción Exacta de Gradientes
Descubre TERA, un método que acelera procesos Gaussianos derivativos en altas dimensiones sin perder precisión. Ideal para simulaciones costosas.
Descubre TERA, un método que acelera procesos Gaussianos derivativos en altas dimensiones sin perder precisión. Ideal para simulaciones costosas.
Optimización Adam para máquinas Ising analógicas: supera al descenso por gradiente, reduce el tiempo de solución y mejora la calidad en problemas como Max-Cut. ¡Descúbrelo!
Las neuronas QIF ofrecen paisajes de pérdida menos fragmentados y superan a las LIF en descenso por gradiente exacto. Descubre los resultados.
Descubre MuLoCo, el optimizador con Muon que supera a DiLoCo, permite mayores batch sizes y mejor escalabilidad en entrenamiento de modelos de lenguaje.
Descubre cómo el descenso de gradiente logra tasas de generalización óptimas en redes ReLU profundas con dependencia polinomial de la profundidad, mejorando resultados previos.
Descubre cómo la curvatura de la pérdida en redes neuronales varía según la arquitectura. Una descomposición exacta revela la relación entre Hessiano y gradient
Descubre cómo el nuevo algoritmo A-MWGraD acelera la optimización multiobjetivo en espacios de Wasserstein, logrando convergencia O(1/t²) y mejor muestreo.
Descubre cómo el grokking en regresión ridge demuestra que la generalización tardía no es un fallo de deep learning. Aprende a controlarlo con hiperparámetros.
Descubre MeSP: reduce un 49% la memoria al ajustar LLMs en dispositivos, con gradientes exactos. Ideal para entrenamiento privado.
Descubre cómo las entropías de grupo y la dualidad espejo crean una familia flexible de actualizaciones de descenso espejo para optimizar modelos de ML con mayor adaptabilidad y convergencia.
Descubre cómo una regularización débil mejora el entrenamiento de Wasserstein GANs, superando problemas de convergencia y optimizando la restricción Lipschitz.
Cómo los gradientes estocásticos convergen con parámetros nuisance. Ortogonalidad de Neyman y actualizaciones ortogonalizadas para optimización robusta.
Descubre cómo los métodos aleatorios de factibilidad con pasos adaptativos resuelven optimización con restricciones en SVM y regresión logística, logrando convergencia rápida y eficiente.
Descubre cómo estimar gradientes Poisson sin sesgo con el método EAT modificado. Comparativa con Gumbel-Softmax para VAEs y modelos de inferencia neuronal.
Descubre un algoritmo Actor-Critic que converge globalmente en juegos multiagente incorporando aversión al riesgo. Garantías de muestra finita y superioridad sobre métodos neutrales al riesgo.
Optimiza LLMs con GradMem: escribe contexto en memoria mediante descenso de gradiente en tiempo de prueba, reduciendo la necesidad de grandes cachés.
Descubre cómo optimizar modelos estadísticos en variedades Riemannianas sin invertir la matriz de Fisher. Un método eficiente con convergencia probada.
El Puente de Identidad: un simple ajuste en los datos de entrenamiento que rompe la maldición de la reversión en modelos de lenguaje. Logra un 50% de éxito.
PECKER: método eficiente de desaprendizaje para modelos de difusión. Reduce el tiempo de entrenamiento y mejora el borrado selectivo de conocimiento.
Descubre cómo el algoritmo SAM puede quedarse atrapado en puntos de silla y cómo el momentum y el tamaño de lote ayudan a mejorar su estabilidad y generalización.