Welcome to bg51717's Wiki and Blog
梯度估计STE 梯度估计STE
背景 反向传播是现在训练模型的重要方法,但是在部分场景下,会遇到不可微分的函数,从而导致梯度传播失败。比如量化里的取整函数。因此,需要对梯度进行估计然后反向传播。 STE(Straight-Through Estimator)是2013年Y
Adam Optimizer Adam Optimizer
背景 传统的随机梯度下降算法SGD(Stochastic Gradient Descent)的式子为: \[ \theta_{t+1} \leftarrow \theta_{t} -\alpha \nabla_{\theta_{t}}J_{