#gradiente

Procesos Gaussianos Derivativos Escalables con Reducción Exacta de Gradientes

Descubre TERA, un método que acelera procesos Gaussianos derivativos en altas dimensiones sin perder precisión. Ideal para simulaciones costosas.

2026-06-03 · 3 min

Más allá del gradiente: Adam para máquinas Ising

Optimización Adam para máquinas Ising analógicas: supera al descenso por gradiente, reduce el tiempo de solución y mejora la calidad en problemas como Max-Cut. ¡Descúbrelo!

2026-06-03 · 1 min

Neuronas QIF mejoran el descenso por gradiente en redes de picos

Las neuronas QIF ofrecen paisajes de pérdida menos fragmentados y superan a las LIF en descenso por gradiente exacto. Descubre los resultados.

2026-06-03 · 2 min

MuLoCo: Muon como optimizador interno práctico para DiLoCo

Descubre MuLoCo, el optimizador con Muon que supera a DiLoCo, permite mayores batch sizes y mejor escalabilidad en entrenamiento de modelos de lenguaje.

2026-06-03 · 2 min

Tasas óptimas de generalización del descenso de gradiente en clasificación ReLU profunda

Descubre cómo el descenso de gradiente logra tasas de generalización óptimas en redes ReLU profundas con dependencia polinomial de la profundidad, mejorando resultados previos.

2026-06-03 · 2 min

Espectro asintótico en pérdida de redes neuronales: descomposición del exponente de curvatura

Descubre cómo la curvatura de la pérdida en redes neuronales varía según la arquitectura. Una descomposición exacta revela la relación entre Hessiano y gradient

2026-06-03 · 4 min

Flujos Wasserstein Acelerados para Optimización Multiobjetivo

Descubre cómo el nuevo algoritmo A-MWGraD acelera la optimización multiobjetivo en espacios de Wasserstein, logrando convergencia O(1/t²) y mejor muestreo.

2026-06-03 · 2 min

Descifrando el Grokking en Regresión Ridge

Descubre cómo el grokking en regresión ridge demuestra que la generalización tardía no es un fallo de deep learning. Aprende a controlarlo con hiperparámetros.

2026-06-03 · 2 min

Backpropagación Estructurada Eficiente en Memoria para Ajuste Fino de LLM

Descubre MeSP: reduce un 49% la memoria al ajustar LLMs en dispositivos, con gradientes exactos. Ideal para entrenamiento privado.

2026-06-03 · 2 min

Familia flexible de actualizaciones de descenso espejo con entropías de grupo

Descubre cómo las entropías de grupo y la dualidad espejo crean una familia flexible de actualizaciones de descenso espejo para optimizar modelos de ML con mayor adaptabilidad y convergencia.

2026-06-03 · 3 min

Regularización de las GANs de Wasserstein

Descubre cómo una regularización débil mejora el entrenamiento de Wasserstein GANs, superando problemas de convergencia y optimizando la restricción Lipschitz.

2026-06-03 · 2 min

Gradientes estocásticos bajo parámetros nuisance

Cómo los gradientes estocásticos convergen con parámetros nuisance. Ortogonalidad de Neyman y actualizaciones ortogonalizadas para optimización robusta.

2026-06-03 · 2 min

Optimización restringida: métodos aleatorios de factibilidad con pasos adaptativos

Descubre cómo los métodos aleatorios de factibilidad con pasos adaptativos resuelven optimización con restricciones en SVM y regresión logística, logrando convergencia rápida y eficiente.

2026-06-03 · 2 min

Guía del autoestopista: estimación de gradientes Poisson

Descubre cómo estimar gradientes Poisson sin sesgo con el método EAT modificado. Comparativa con Gumbel-Softmax para VAEs y modelos de inferencia neuronal.

2026-06-03 · 2 min

Actor-Critic convergente para MARL mediante aversión al riesgo

Descubre un algoritmo Actor-Critic que converge globalmente en juegos multiagente incorporando aversión al riesgo. Garantías de muestra finita y superioridad sobre métodos neutrales al riesgo.

2026-06-03 · 2 min

GradMem: Contexto en Memoria con Descenso de Gradiente en Tiempo de Prueba

Optimiza LLMs con GradMem: escribe contexto en memoria mediante descenso de gradiente en tiempo de prueba, reduciendo la necesidad de grandes cachés.

2026-06-03 · 2 min

Gradiente natural sin inversión en variedades riemannianas

Descubre cómo optimizar modelos estadísticos en variedades Riemannianas sin invertir la matriz de Fisher. Un método eficiente con convergencia probada.

2026-06-03 · 2 min

Rompiendo la maldición de la reversión en modelos de lenguaje autoregresivos

El Puente de Identidad: un simple ajuste en los datos de entrenamiento que rompe la maldición de la reversión en modelos de lenguaje. Logra un 50% de éxito.

2026-06-03 · 2 min

PECKER: Borrado eficiente de conocimiento en modelos de difusión

PECKER: método eficiente de desaprendizaje para modelos de difusión. Reduce el tiempo de entrenamiento y mejora el borrado selectivo de conocimiento.

2026-06-03 · 1 min

Análisis de estabilidad de Sharpness-Aware Minimization

Descubre cómo el algoritmo SAM puede quedarse atrapado en puntos de silla y cómo el momentum y el tamaño de lote ayudan a mejorar su estabilidad y generalización.

2026-06-03 · 2 min