#ideogram

Acelerando Transformers de Difusión con INT8 nativo en GPUs de consumo

Descubre cómo un kernel INT8 fusionado en Triton acelera hasta 4.2x los Transformers de Difusión en GPUs Ampere, superando a FP8 y NF4 sin pérdida de calidad.

2026-06-15 · 2 min