首页 | 归档 | 分类 | 标签 | 关于 |
|
介绍 SymPy 是一个功能强大、开源的符号计算库(数值计算也同样支持),涵盖了代数、微积分、线性代数、数论、组合数学、物理学等领域的广泛功能。 这个库可以提供
介绍 发现论文阅读习惯是一个十分重要的事情。 在和师兄的交流当中发现,读完一篇文献总是会遗漏一部分内容,这是因为没有良好的论文阅读习惯导致无法从一个文献中获得足
介绍 很多针对LLM的PTQ量化算法在设计参数的时候都添加了太多的先验知识,导致性能不佳,尤其在低比特量化中。为了解决这个问题,本文提出了全向校准量化(Omni
介绍 OneBit属于量化方法中的量化感知训练QAT。基于BitNet的OneBit将LLM的权重矩阵量化为1位,用一种新颖的 1 位参数表示方法以更好地量化
定理陈述 对于任意 \(m \times n\) 的矩阵 \(A\),存在一个分解: \[ A = U \Sigma V^T \] 其中: r=rank(A)是
背景 反向传播是现在训练模型的重要方法,但是在部分场景下,会遇到不可微分的函数,从而导致梯度传播失败。比如量化里的取整函数。因此,需要对梯度进行估计然后反向传播
这是bg51717的个人Wiki和Blog站点,主要是把知识系统的罗列出来以及存放一些特殊bug的处理,当然也会更一些游戏或者二次元相关东西,也希望在成长的过程
介绍 本篇博客介绍论文[2306.00978] AWQ: Activation-aware Weight Quantization for LLM Compre
介绍 求解最优化是一类十分常见且难以求解的问题,因此,考虑开一个博客系统性的介绍一下重要解法:拉格朗日乘数法(Lagrange Multiplier Metho
介绍 GPTQ算法的原理从数学公式出发,推导出权重的量化顺序和其余参数的调整值,然后根据这些值对block里的所有参数以列为单位进行量化,每次量化可以量化多个列
todo:本文还在施工中....... 介绍 llm.int8是第一批针对大模型进行量化的算法,并且其算法也被集成在 bitsandbytes库中,该库也已经被
介绍 这篇博客主要是关于pytorch分布式ddp(DistributedDataParallel)的介绍和大概的食用(这不是错别字)教程。 数据并行Distr
介绍 后来发现单纯的wiki风格博客可能确实有些单调了(绝对不是因为我想弄二次元风格的),因此在考虑以后,决定搭建一个双主题的博客,外层是个华丽一点的主题mat
介绍 dotfiles指的是 .开头的隐藏文件夹,一般是用户的配置或者软件信息。使用服务器或者Linux的时候,安装一些软件配置自己的使用环境是十分常见的场景。
介绍 ZSH(Z shell)类似Bash,是被广泛用于类Unix系统的命令行解释器。在具备Bash的基本功能的同时,还扩展了很多功能,同时对插件的支持和高度定
介绍 这篇博客主要记录了如何在安卓手机上配置谷歌三件套的服务。 对于非华为荣耀手机,可能仅仅需要简单的使用一些第三方的安装软件即可完成,比如 go安装助手等,资
介绍 这篇博客主要介绍了怎么把一个已有的Pytorch代码转变成HF支持的格式,然后可以方便的放入HF代码流程中,并且使用一些HF的函数。代码转换主要涉及到以下
介绍 在深度学习的实际项目中,为了减少随机性,增强项目的复现能力,设置固定随机数种子十分重要,因此这篇文章罗列了一些设置随机种子的方法和减少项目随机性的经验。
介绍 在学习项目的过程中,很多时候需要通过调试来高效率的了解代码的执行过程,因此这里介绍下怎么使用vscode对python程序进行调试。 方法一:简单图标点击
介绍 在工作和学习的时候发现,很多时候挑选合适的模型和数据集等也是一个重要且麻烦的过程。发现有很多相关的评测的排行榜,根据这些实时更新的排行榜,可以辅助我们进行
介绍 当作快速过这个资料的笔记,一些关于别的库的介绍是不完全的,考虑在使用的时候从别的信息渠道就行信息的搜集。也可以作为后面待更博客列举? 常用方式 可以参考h
介绍 作为深度学习的基本模板使用,方便使用的时候作为骨架 许多文件可以考虑添加argparse和sh来引入外部配置来抽象过程,增强代码重用性 dataset.p
信息熵的公式 计算信息熵的公式为: \[ H(x)=-\sum p(x_i)logp(x_i) \] 其中\(p(x_i)\)表示事件结果为\(x_i\)的概率
介绍 当作快速过这个资料的笔记,一些关于别的库的介绍是不完全的,考虑在使用的时候从别的信息渠道就行信息的搜集。也可以作为后面待更博客列举? 具体 torchsc
背景 传统的随机梯度下降算法SGD(Stochastic Gradient Descent)的式子为: \[ \theta_{t+1} \leftarrow \
介绍 这里介绍两种语义结构: Constituency Parsing:句法分析,Context-free grammars(CFGs),上下文无关语法,赋予每
在学习深度学习的过程中,很多次遇到了矩阵求导的问题,发现网上很多教程写的不是很好理解,记录自己的浅薄认知. (矩阵求导有分子转置(和分子行数一样)和分母转置(和
介绍 相比Word2Vec的局部训练,GloVe可以使用全局的语料统计信息来训练,可以预先计算全局语料库统计数据来提高训练数据. 带全局语料统计的跳元模型 用\
介绍 传统的词向量是独热编码One-Hot,每个词语对应的向量只有一位为1,其余为0,通过这个1的位置区分向量 Word2Vec是一种Distributed R
前言 当大四结束的时候,才意识到大学过的十分失败,很多计算机的核心知识其实都是处于一知半解的状态,动手能力也还是有很大的差距.即使在大一的时候,就已经在知乎上面
这里推荐一个文献管理工具,zotero,很好用的文献管理工具,也能很好的辅助写论文,获取文献,免费开源且支持插件,可以参考这个b站up的视频搭建和使用这个工具。
摘要 这篇论文展示了BitNet,一种为大型语言模型设计的可扩展和稳定的1-bit转换器架构。具体地说,引入了BitLinear作为nn.Linar的插入替代,
论文地址:A Survey of Quantization Methods for Efficient Neural Network Inference 摘要
介绍 以前一直不理解更新博客的用处,后来发现记录一些学到的东西和处理问题的经验对个人还是互联网都是有促进作用的(希望不是在生产互联网垃圾)。 所以本文会介绍一下
介绍 这里接受一个快速启动的工具utools和常用的插件。 utools utools已经被很多人开始使用了,无论是 alt+space 还是鼠标中键等快速启动