#spiking

Inferencia INT8 consciente de picos para modelos de lenguaje spike en CPU

La inferencia INT8 consciente de picos acelera modelos spike en CPU, superando a TinyLlama con 22.63 tokens/s y reduciendo memoria.

Aprende cómo PSViT comprime SViT con poda estructural: 22% menos memoria y alta precisión.