分类: 经典模块 | Blogs

Welcome to bg51717's Wiki and Blog

文章分类

杂项 3 课程资源 1 huggingface 1 深度学习 7 自然语言处理 1 工具 5 模板 3 SmallProjects 2 数学 5 自然语言处理 3 经典模块 2 工程细节 1 博客搭建 2 概率论 1 线性代数 2 代码 1 科研 8 微积分 1 论文阅读 8

梯度估计STE

梯度估计STE

背景反向传播是现在训练模型的重要方法，但是在部分场景下，会遇到不可微分的函数，从而导致梯度传播失败。比如量化里的取整函数。因此，需要对梯度进行估计然后反向传播。 STE(Straight-Through Estimator)是2013年Y

2024-11-04 深度学习经典模块

深度学习梯度估计

Adam Optimizer

背景传统的随机梯度下降算法SGD(Stochastic Gradient Descent)的式子为: \[ \theta_{t+1} \leftarrow \theta_{t} -\alpha \nabla_{\theta_{t}}J_{

2023-12-29 深度学习经典模块

深度学习优化算法