ReSpinQuant: Cuantificación eficiente de capa por capa de LLM mediante aproximación de rotación residual en subespacio
Cuantificación eficiente de LLMs capa por capa usando rotación residual en subespacio. Optimiza el rendimiento sin sacrificar precisión con esta innovadora técnica.