StreamKL: Divergencia KL rápida y eficiente para destilación de atención StreamKL acelera hasta 43x la divergencia KL en destilación de atención, reduciendo memoria de O(N²) a O(1) en GPU. Ideal para contextos largos. 2026-06-19 · 3 min