STaR-Quant: Cuantificación post-entrenamiento para modelos de lenguaje difusos STaR-Quant mejora la cuantificación de baja precisión en DLLMs, logrando 1.69x aceleración y 3.14x ahorro de memoria sobre FP16. Descubre cómo optimizar tu modelo. 2026-06-04 · 2 min