Welcome to bg51717's Wiki and Blog
梯度估计STE 梯度估计STE
背景 反向传播是现在训练模型的重要方法,但是在部分场景下,会遇到不可微分的函数,从而导致梯度传播失败。比如量化里的取整函数。因此,需要对梯度进行估计然后反向传播。 STE(Straight-Through Estimator)是2013年Y
随机数种子 随机数种子
介绍 在深度学习的实际项目中,为了减少随机性,增强项目的复现能力,设置固定随机数种子十分重要,因此这篇文章罗列了一些设置随机种子的方法和减少项目随机性的经验。 通用函数 def set_random_seed(seed): """S
nlp常用排行榜 nlp常用排行榜
介绍 在工作和学习的时候发现,很多时候挑选合适的模型和数据集等也是一个重要且麻烦的过程。发现有很多相关的评测的排行榜,根据这些实时更新的排行榜,可以辅助我们进行选择模型等前期工作。 Spaces - Hugging Face 这里罗列了许多
Adam Optimizer Adam Optimizer
背景 传统的随机梯度下降算法SGD(Stochastic Gradient Descent)的式子为: \[ \theta_{t+1} \leftarrow \theta_{t} -\alpha \nabla_{\theta_{t}}J_{
依赖分析Dependency Parsing 依赖分析Dependency Parsing
介绍 这里介绍两种语义结构: Constituency Parsing:句法分析,Context-free grammars(CFGs),上下文无关语法,赋予每个单词一个词性类别,单词组合成短语,短语递归形成更大的短语 Dependenc
GloVe GloVe
介绍 相比Word2Vec的局部训练,GloVe可以使用全局的语料统计信息来训练,可以预先计算全局语料库统计数据来提高训练数据. 带全局语料统计的跳元模型 用\(q_{ij}\)表示词\(w_j\)的条件概率\(P(w_j|w_i)\),在
Word2Vec Word2Vec
介绍 传统的词向量是独热编码One-Hot,每个词语对应的向量只有一位为1,其余为0,通过这个1的位置区分向量 Word2Vec是一种Distributed Representation,相比独热编码有以下优点: 维度远小于独热编码 能更