LFQ: Cuantificación del bloque final consciente de logits para mejorar la calidad de generación de LLM cuantificados de bajo bit
LFQ optimiza la cuantificación del bloque final para mejorar el rendimiento de LLM de bajo bit. Descubre esta técnica avanzada.