SpenseGPT: poda de una sola pasada para inferencia de LLM Descubre SpenseGPT: un método de poda one-shot que acelera la inferencia de LLMs hasta 1.2 veces en GPUs B200 con FP8, manteniendo la precisión del modelo. 2026-06-10 · 2 min