MAGE: El bloque All-[MASK] sabe dónde mirar en difusión por bloques LLM Con MAGE, la atención dispersa acelera hasta 6.82x la inferencia en contexto largo sin pérdida de precisión. 2026-06-08 · 2 min