Atención Top-Theta: Adelgazamiento de Transformers con Umbralización Compensada
Top-Theta: reduce 10x la memoria de atención en transformers con menos del 1% de pérdida. Sin reentrenamiento. Ideal para NLP.
Top-Theta: reduce 10x la memoria de atención en transformers con menos del 1% de pérdida. Sin reentrenamiento. Ideal para NLP.