Más allá de los FLOPs: Evaluación de la aceleración real del pruning de LLM con taxonomía GEMM
Nueva taxonomía GEMM revela los límites prácticos del pruning en LLM. La poda estática y dinámica dominan según la pérdida de calidad. Resultados clave para acelerar inferencia.