Repensando las divergencias de Bregman en optimizadores Kronecker
Descubre cómo las divergencias de Bregman distribuyen el error de aproximación espectral en optimizadores Kronecker y la propuesta de un optimizador adaptativo.
Descubre cómo las divergencias de Bregman distribuyen el error de aproximación espectral en optimizadores Kronecker y la propuesta de un optimizador adaptativo.
El aprendizaje subliminal en modelos de lenguaje se produce por la destilación de un vector de dirección. Te explicamos este fascinante fenómeno y sus implicaciones.
Descubre LiMuon, el optimizador ligero y rápido que reduce memoria y complejidad muestral para entrenar modelos grandes. ¡Mejor rendimiento!
Descubre cómo ZO-Finetuner optimiza el ajuste de LLMs sin retropropagación, reduciendo el uso de memoria y mejorando el rendimiento en múltiples tareas.
Descubre cómo un optimizador basado en atención encuentra simetrías en Hamiltonianos de Pauli usando IA, superando métodos tradicionales en modelos de Ising y Toric.
Parallax: atención local lineal que mantiene softmax y añade corrección de covarianza. Duplica eficiencia en GPUs para LLMs.