Repensando la granularidad: compresión de LLM con SubFit SubFit comprime LLMs a nivel de submódulos con selección no contigua. Mejora el equilibrio precisión-perplejidad, acelera inferencia y ahorra memoria KV-cache. ¡Más eficiente! 2026-06-02 · 1 min