Blogs
首页 归档 分类 标签 关于
首页 归档 分类 标签 关于

分类  

  •   SmallProjects
    •   博客搭建
      • Hexo+Github搭建个人Wiki风格博客
      • hexo博客2:双主题
  •   huggingface
    • pytroch_tutorials杂项
  •   工具
    • 快速启动工具——utools
    • 文献管理工具zotero
    • 安卓手机配置Google
    • zsh+powerlevel10K优化终端使用体验
    • 使用dotbot快速同步Linux配置
  •   数学
    •   代码
      • 数学计算库:SymPy
    •   微积分
      • 拉格朗日乘数法解条件极值
    •   概率论
      • 信息熵
    •   线性代数
      • 矩阵偏分
      • 矩阵奇异值分解SVD
  •   杂项
    • pytroch_tutorials杂项
    • vscode调试python
  •   模板
    • pytorch_model
    • PyTorch代码转HF
    • pytorch分布式-ddp
  •   深度学习
    •   工程细节
      • 随机数种子
    •   经典模块
      • Adam Optimizer
      • 梯度估计STE
    •   自然语言处理
      • Word2Vec
      • GloVe
      • 依赖分析Dependency Parsing
  •   科研
    •   论文阅读
      • 论文阅读:BitNet_Scaling_1-bit_Transformers_for_Large_Language_Models
      • 论文阅读:A_Survey_of_Quantization_Methods_for_Efficient_Neural_Network_Inference
      • llm.int8
      • 大模型量化~GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
      • AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
      • OneBit: Towards Extremely Low-bit Large Language Models
      • OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models
      • 论文阅读习惯
  •   自然语言处理
    • nlp常用排行榜
  •   课程资源
    • readme
  • Welcome to bg51717's Wiki and Blog

工程细节

随机数种子

2024-07-09
深度学习工程细节
深度学习, 随机数
bg51717 © 2024 Creative Commons License
Powered by Hexo. Theme - wikitten
3111  |  1387
文章
数学计算库:SymPy

介绍 SymPy 是一个功能强大、开源的符号计算库(数值计算也同样支持),涵盖了代数、微积分、线性代数、数论、组合数学、物理学等领域的广泛功能。 这个库可以提供

论文阅读习惯

介绍 发现论文阅读习惯是一个十分重要的事情。 在和师兄的交流当中发现,读完一篇文献总是会遗漏一部分内容,这是因为没有良好的论文阅读习惯导致无法从一个文献中获得足

OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

介绍 很多针对LLM的PTQ量化算法在设计参数的时候都添加了太多的先验知识,导致性能不佳,尤其在低比特量化中。为了解决这个问题,本文提出了全向校准量化(Omni

OneBit: Towards Extremely Low-bit Large Language Models

介绍 OneBit属于量化方法中的量化感知训练QAT。基于BitNet的OneBit将LLM的权重矩阵量化为1位,用一种新颖的 1 位参数表示方法以更好地量化

矩阵奇异值分解SVD

定理陈述 对于任意 \(m \times n\) 的矩阵 \(A\),存在一个分解: \[ A = U \Sigma V^T \] 其中: r=rank(A)是

梯度估计STE

背景 反向传播是现在训练模型的重要方法,但是在部分场景下,会遇到不可微分的函数,从而导致梯度传播失败。比如量化里的取整函数。因此,需要对梯度进行估计然后反向传播

Welcome to bg51717's Wiki and Blog

这是bg51717的个人Wiki和Blog站点,主要是把知识系统的罗列出来以及存放一些特殊bug的处理,当然也会更一些游戏或者二次元相关东西,也希望在成长的过程

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

介绍 本篇博客介绍论文[2306.00978] AWQ: Activation-aware Weight Quantization for LLM Compre

拉格朗日乘数法解条件极值

介绍 求解最优化是一类十分常见且难以求解的问题,因此,考虑开一个博客系统性的介绍一下重要解法:拉格朗日乘数法(Lagrange Multiplier Metho

大模型量化~GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

介绍 GPTQ算法的原理从数学公式出发,推导出权重的量化顺序和其余参数的调整值,然后根据这些值对block里的所有参数以列为单位进行量化,每次量化可以量化多个列

llm.int8

todo:本文还在施工中....... 介绍 llm.int8是第一批针对大模型进行量化的算法,并且其算法也被集成在 bitsandbytes库中,该库也已经被

pytorch分布式-ddp

介绍 这篇博客主要是关于pytorch分布式ddp(DistributedDataParallel)的介绍和大概的食用(这不是错别字)教程。 数据并行Distr

hexo博客2:双主题

介绍 后来发现单纯的wiki风格博客可能确实有些单调了(绝对不是因为我想弄二次元风格的),因此在考虑以后,决定搭建一个双主题的博客,外层是个华丽一点的主题mat

使用dotbot快速同步Linux配置

介绍 dotfiles指的是 .开头的隐藏文件夹,一般是用户的配置或者软件信息。使用服务器或者Linux的时候,安装一些软件配置自己的使用环境是十分常见的场景。

zsh+powerlevel10K优化终端使用体验

介绍 ZSH(Z shell)类似Bash,是被广泛用于类Unix系统的命令行解释器。在具备Bash的基本功能的同时,还扩展了很多功能,同时对插件的支持和高度定

安卓手机配置Google

介绍 这篇博客主要记录了如何在安卓手机上配置谷歌三件套的服务。 对于非华为荣耀手机,可能仅仅需要简单的使用一些第三方的安装软件即可完成,比如 go安装助手等,资

PyTorch代码转HF

介绍 这篇博客主要介绍了怎么把一个已有的Pytorch代码转变成HF支持的格式,然后可以方便的放入HF代码流程中,并且使用一些HF的函数。代码转换主要涉及到以下

随机数种子

介绍 在深度学习的实际项目中,为了减少随机性,增强项目的复现能力,设置固定随机数种子十分重要,因此这篇文章罗列了一些设置随机种子的方法和减少项目随机性的经验。

vscode调试python

介绍 在学习项目的过程中,很多时候需要通过调试来高效率的了解代码的执行过程,因此这里介绍下怎么使用vscode对python程序进行调试。 方法一:简单图标点击

nlp常用排行榜

介绍 在工作和学习的时候发现,很多时候挑选合适的模型和数据集等也是一个重要且麻烦的过程。发现有很多相关的评测的排行榜,根据这些实时更新的排行榜,可以辅助我们进行

pytroch_tutorials杂项

介绍 当作快速过这个资料的笔记,一些关于别的库的介绍是不完全的,考虑在使用的时候从别的信息渠道就行信息的搜集。也可以作为后面待更博客列举? 常用方式 可以参考h

pytorch_model

介绍 作为深度学习的基本模板使用,方便使用的时候作为骨架 许多文件可以考虑添加argparse和sh来引入外部配置来抽象过程,增强代码重用性 dataset.p

信息熵

信息熵的公式 计算信息熵的公式为: \[ H(x)=-\sum p(x_i)logp(x_i) \] 其中\(p(x_i)\)表示事件结果为\(x_i\)的概率

pytroch_tutorials杂项

介绍 当作快速过这个资料的笔记,一些关于别的库的介绍是不完全的,考虑在使用的时候从别的信息渠道就行信息的搜集。也可以作为后面待更博客列举? 具体 torchsc

Adam Optimizer

背景 传统的随机梯度下降算法SGD(Stochastic Gradient Descent)的式子为: \[ \theta_{t+1} \leftarrow \

依赖分析Dependency Parsing

介绍 这里介绍两种语义结构: Constituency Parsing:句法分析,Context-free grammars(CFGs),上下文无关语法,赋予每

矩阵偏分

在学习深度学习的过程中,很多次遇到了矩阵求导的问题,发现网上很多教程写的不是很好理解,记录自己的浅薄认知. (矩阵求导有分子转置(和分子行数一样)和分母转置(和

GloVe

介绍 相比Word2Vec的局部训练,GloVe可以使用全局的语料统计信息来训练,可以预先计算全局语料库统计数据来提高训练数据. 带全局语料统计的跳元模型 用\

Word2Vec

介绍 传统的词向量是独热编码One-Hot,每个词语对应的向量只有一位为1,其余为0,通过这个1的位置区分向量 Word2Vec是一种Distributed R

readme

前言 当大四结束的时候,才意识到大学过的十分失败,很多计算机的核心知识其实都是处于一知半解的状态,动手能力也还是有很大的差距.即使在大一的时候,就已经在知乎上面

文献管理工具zotero

这里推荐一个文献管理工具,zotero,很好用的文献管理工具,也能很好的辅助写论文,获取文献,免费开源且支持插件,可以参考这个b站up的视频搭建和使用这个工具。

论文阅读:BitNet_Scaling_1-bit_Transformers_for_Large_Language_Models

摘要 这篇论文展示了BitNet,一种为大型语言模型设计的可扩展和稳定的1-bit转换器架构。具体地说,引入了BitLinear作为nn.Linar的插入替代,

论文阅读:A_Survey_of_Quantization_Methods_for_Efficient_Neural_Network_Inference

论文地址:A Survey of Quantization Methods for Efficient Neural Network Inference 摘要

Hexo+Github搭建个人Wiki风格博客

介绍 以前一直不理解更新博客的用处,后来发现记录一些学到的东西和处理问题的经验对个人还是互联网都是有促进作用的(希望不是在生产互联网垃圾)。 所以本文会介绍一下

快速启动工具——utools

介绍 这里接受一个快速启动的工具utools和常用的插件。 utools utools已经被很多人开始使用了,无论是 alt+space 还是鼠标中键等快速启动

页面
404
categories
about
tags
contact
friends
分类
数学数学
代码数学/代码
科研科研
论文阅读科研/论文阅读
线性代数数学/线性代数
深度学习深度学习
经典模块深度学习/经典模块
微积分数学/微积分
模板模板
SmallProjectsSmallProjects
博客搭建SmallProjects/博客搭建
工具工具
工程细节深度学习/工程细节
杂项杂项
自然语言处理深度学习/自然语言处理
huggingfacehuggingface
概率论数学/概率论
课程资源课程资源
标签
数学数学
SymPySymPy
深度学习深度学习
量化量化
矩阵矩阵
SVDSVD
梯度估计梯度估计
模板模板
PyTorchPyTorch
分布式分布式
ddqddq
数据并行数据并行
Data ParallelData-Parallel
博客博客
HexoHexo
WikiWiki
dotfilesdotfiles
dotbotdotbot
LinuxLinux
终端终端
oh-my-zshoh-my-zsh
powerlevel10kpowerlevel10k
安卓安卓
GoogleGoogle
HuggingFaceHuggingFace
TrainerTrainer
configconfig
modelmodel
datasetdataset
随机数随机数
vscodevscode
pythonpython
调试调试
debugdebug
transformers_tutorialstransformers-tutorials
信息学信息学
pytroch_tutorialspytroch-tutorials
优化算法优化算法
自然语言处理自然语言处理
向量向量
工具工具
文献管理文献管理
效率效率