Atención dispersa como regresión compacta de kernel Atención dispersa como regresión de kernel compacta: una técnica eficiente para transformers que reduce costos computacionales sin sacrificar precisión. 2026-05-11 · 2 min