LiMuon: Optimizador Muon Ligero y Rápido para Modelos Grandes
Descubre LiMuon, el optimizador ligero y rápido que reduce memoria y complejidad muestral para entrenar modelos grandes. ¡Mejor rendimiento!
Descubre LiMuon, el optimizador ligero y rápido que reduce memoria y complejidad muestral para entrenar modelos grandes. ¡Mejor rendimiento!
Parallax: atención local lineal que mantiene softmax y añade corrección de covarianza. Duplica eficiencia en GPUs para LLMs.
MuCon optimiza el entrenamiento de LLM con actualizaciones de Muon recortadas, logrando mayor eficiencia y velocidad.
Estudio teórico y empírico sobre el uso del muon en entrenamiento adversarial. Análisis detallado de su efectividad y aplicaciones.
<meta content=Descubre cómo Muon optimiza Vision Transformers con una receta práctica y análisis de espectros de gradiente para mejorar el entrenamiento.>