#inferencia int8

Inferencia INT8 consciente de picos para modelos de lenguaje spike en CPU

La inferencia INT8 consciente de picos acelera modelos spike en CPU, superando a TinyLlama con 22.63 tokens/s y reduciendo memoria.