TileFuse: Biblioteca de kernels de precisión mixta para LLM en NPUs AMD
TileFuse optimiza la inferencia de LLM en NPUs AMD con kernels fusionados de precisión mixta, logrando hasta 2x menor latencia y 64% menos consumo energético.
TileFuse optimiza la inferencia de LLM en NPUs AMD con kernels fusionados de precisión mixta, logrando hasta 2x menor latencia y 64% menos consumo energético.
La calidad no es sinónimo de seguridad en modelos cuantizados. Este estudio revela riesgos ocultos que pasan desapercibidos con métricas tradicionales.