StreamKL: divergencia KL rápida y eficiente para destilación de atención
StreamKL reduce el consumo de memoria de O(N²) a O(1) y acelera hasta 43x la destilación de atención en GPUs. Ideal para modelos con contexto largo.
StreamKL reduce el consumo de memoria de O(N²) a O(1) y acelera hasta 43x la destilación de atención en GPUs. Ideal para modelos con contexto largo.
StreamKL acelera hasta 43x la divergencia KL en destilación de atención, reduciendo memoria de O(N²) a O(1) en GPU. Ideal para contextos largos.