#poda one-shot

SpenseGPT: poda de una sola pasada para inferencia de LLM

Descubre SpenseGPT: un método de poda one-shot que acelera la inferencia de LLMs hasta 1.2 veces en GPUs B200 con FP8, manteniendo la precisión del modelo.

2026-06-10 · 2 min