Acelerando Transformers de Difusión con INT8 nativo en GPUs de consumo Descubre cómo un kernel INT8 fusionado en Triton acelera hasta 4.2x los Transformers de Difusión en GPUs Ampere, superando a FP8 y NF4 sin pérdida de calidad. 2026-06-15 · 2 min