Inferencia INT8 consciente de picos para modelos de lenguaje spike en CPU
La inferencia INT8 consciente de picos acelera modelos spike en CPU, superando a TinyLlama con 22.63 tokens/s y reduciendo memoria.
La inferencia INT8 consciente de picos acelera modelos spike en CPU, superando a TinyLlama con 22.63 tokens/s y reduciendo memoria.
Aprende cómo PSViT comprime SViT con poda estructural: 22% menos memoria y alta precisión.