Inferencia INT8 consciente de picos para modelos de lenguaje spike en CPU La inferencia INT8 consciente de picos acelera modelos spike en CPU, superando a TinyLlama con 22.63 tokens/s y reduciendo memoria. 2026-06-03 · 2 min