ExLlamaV2 是一个专门为了提高 GPTQ 的性能而设计的库得益于新的核心,它针对(极速的)快速推理进行了优化
Leave a CommentTag: Quantization
我们将把一种适用于模特的减重技术,比如量化,与一种参数高效的微调技术,比如LoRA,结合在一起这种组合的结果就是QLoRA,它…
Leave a Comment在这篇文章中,我们使用GGML和llama.cpp对我们的经过精调的Llama 2模型进行量化然后,我们在本地运行GGML模型,并比较NF4、GPTQ和GGML的性能
Leave a Comment