Welcome to bg51717's Wiki and Blog
论文阅读习惯 论文阅读习惯
介绍 发现论文阅读习惯是一个十分重要的事情。 在和师兄的交流当中发现,读完一篇文献总是会遗漏一部分内容,这是因为没有良好的论文阅读习惯导致无法从一个文献中获得足够的信息从而变成自己的东西。 因此考虑使用这篇博客记录、分享和培养自己的阅读习惯
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models
介绍 很多针对LLM的PTQ量化算法在设计参数的时候都添加了太多的先验知识,导致性能不佳,尤其在低比特量化中。为了解决这个问题,本文提出了全向校准量化(OmniQuant)技术。 OmniQuant包含两个组件,可学习权重裁剪 (LWC)
OneBit: Towards Extremely Low-bit Large Language Models OneBit: Towards Extremely Low-bit Large Language Models
介绍 OneBit属于量化方法中的量化感知训练QAT。基于BitNet的OneBit将LLM的权重矩阵量化为1位,用一种新颖的 1 位参数表示方法以更好地量化 LLM,以及一种基于矩阵分解的有效参数初始化方法以提高量化框架的收敛速度。 方法
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
介绍 本篇博客介绍论文[2306.00978] AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration提出的一种针对权重的训练后量化方法。
大模型量化~GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers 大模型量化~GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
介绍 GPTQ算法的原理从数学公式出发,推导出权重的量化顺序和其余参数的调整值,然后根据这些值对block里的所有参数以列为单位进行量化,每次量化可以量化多个列,同时调整其余未量化的列的参数减小量化误差。 GPTQ算法是只针对权重的量化方式
llm.int8 llm.int8
todo:本文还在施工中....... 介绍 llm.int8是第一批针对大模型进行量化的算法,并且其算法也被集成在 bitsandbytes库中,该库也已经被 huggingface集成到代码库当中作为最基本的量化算法之一。 论文地址
论文阅读:BitNet_Scaling_1-bit_Transformers_for_Large_Language_Models 论文阅读:BitNet_Scaling_1-bit_Transformers_for_Large_Language_Models
摘要 这篇论文展示了BitNet,一种为大型语言模型设计的可扩展和稳定的1-bit转换器架构。具体地说,引入了BitLinear作为nn.Linar的插入替代,以便从头开始训练1-bit的权重。在语言建模上的实验结果表明,与最先进的8-bi
论文阅读:A_Survey_of_Quantization_Methods_for_Efficient_Neural_Network_Inference 论文阅读:A_Survey_of_Quantization_Methods_for_Efficient_Neural_Network_Inference
论文地址:A Survey of Quantization Methods for Efficient Neural Network Inference 摘要 这篇论文是关于模型量化方向的综述,介绍了量化相关领域的研究,同时也介绍了一些