DeMuon: Muon Descentralizado para Optimización de Matrices en Grafos
DeMuon: primer método descentralizado para optimización de matrices en grafos con garantías. Supera a otros en entrenamiento de transformers.
DeMuon: primer método descentralizado para optimización de matrices en grafos con garantías. Supera a otros en entrenamiento de transformers.
Descubre DeMuon, el primer método descentralizado para optimización matricial en grafos con garantías de convergencia. Mejora el entrenamiento de transformers.