WUSH: Transformaciones Adaptativas Casi Óptimas para Cuantización de LLM
WUSH mejora la cuantización de LLMs hasta +2.8 puntos en W4A4. Transformaciones adaptativas casi óptimas para despliegue eficiente en GPU.
WUSH mejora la cuantización de LLMs hasta +2.8 puntos en W4A4. Transformaciones adaptativas casi óptimas para despliegue eficiente en GPU.
BitsMoE asigna bits inteligentemente en MoE LLM, logrando cuantización 2 bits con 27.83% más precisión, 12.3x más rápida y 1.76x más velocidad.