QSLM: Un marco de cuantización consciente del rendimiento y la memoria con estrategia de búsqueda escalonada para modelos de lenguaje impulsados por picos
Optimiza el rendimiento y la memoria con un marco de cuantización consciente y estrategia de búsqueda escalonada.