The present disclosure provides a learning rate determination method based on in-depth learning. Firstly, according to the preset number m, the target loss values LST m + 1, LST m + 2, which are output from the first t m + 1 to the first t iteration, are obtained. Lst, then the learning rate of the T + 1 iteration is determined according to the target loss value of the m group, so that the learning rate of the T + 1 iteration is proportional to the change rate of the target loss value of the m group. This disclosure associates the learning rate with the objective loss function. When the change rate of the target loss value is fast, the learning rate of the next parameter iteration is automatically adjusted to a relatively large value. When the change rate of the target loss value is slow, the learning rate of the next parameter iteration is automatically adjusted to a relatively small one. Numerical value. The present disclosure utilizes the decline rate of the target loss value to adjust the learning rate adaptively so as to reduce the oscillation of the target loss value while speeding up the convergence rate of the network as much as possible.
【技术实现步骤摘要】
基于深度学习的学习率确定方法和装置
本公开涉及深度学习,尤其涉及基于深度学习的学习率确定方法和装置。
技术介绍
目前深度学习模型的求解具有多种优化方式,无论哪种优化方式都需要设置一个学习率来控制梯度移动步长。学习率设置太小会导致目标损失下降过慢,迭代次数过多,需要非常久的时间才能收敛;学习率设置太大很容易导致梯度爆炸(乘积趋向无穷大),使整个深度网络的学习无法继续下去。因此,合适的学习率对深度网络参数的求解非常重要。部分研究人员根据经验设定一个合适的固定值,然而这种固定值无法兼顾整个网络的学习过程,通常会导致网络后期的目标损失值出现震荡。考虑到网络学习过程中,前期梯度下降较快后期梯度下降较慢的特性,大多数研究人员将学习率设计成一个指数的衰减函数来进行参数优化。随着迭代次数的增加,指数衰减函数输出的学习率会越来越小导致网络后期参数更新微乎其微,难以快速收敛及越过一些局部极小值点。现有的学习率设置方法基本上都是根据经验人为设定一个固定值或固定函数来进行网络参数寻优。人为设定的学习率很难顾及到整个网络的学习过程,即使采用循环变化的学习率也有可能使目标损失函数值震荡导致寻优效率低下。
技术实现思路
为解决上述技术问题,本公开提供一种基于深度学习的学习率确定方法和装置,技术方案如下:一种基于深度学习的学习率确定方法,用于确定第t+1次迭代所使用的学习率,所述方法包括:根据预设的次数m,获取第t-m+1次到第t次迭代所输出的m组目标损失值lst-m+1,lst-m+2……lst;根据m组目标损失值确定第t+1次迭代的学习率,使所述学习率与m组目标损失值的变化速率成正比。一 ...
【技术保护点】
1.一种基于深度学习的学习率确定方法,用于确定第t+1次迭代所使用的学习率,其特征在于,所述方法包括:根据预设的次数m,获取第t‑m+1次到第t次迭代所输出的m组目标损失值lst‑m+1,lst‑m+2……lst;根据m组目标损失值确定第t+1次迭代所使用的学习率,使所述学习率与m组目标损失值的变化速率成正比。
【技术特征摘要】
1.一种基于深度学习的学习率确定方法,用于确定第t+1次迭代所使用的学习率,其特征在于,所述方法包括:根据预设的次数m,获取第t-m+1次到第t次迭代所输出的m组目标损失值lst-m+1,lst-m+2……lst;根据m组目标损失值确定第t+1次迭代所使用的学习率,使所述学习率与m组目标损失值的变化速率成正比。2.根据权利要求1所述的方法,其特征在于,所述根据m组目标损失值确定第t+1次迭代所使用的学习率,使所述学习率与m组目标损失值的变化速率成正比,包括:计算lr't+1,根据lr't+1确定第t+1次迭代的学习率,使所述学习率与m组目标损失值的变化速率成正比;其中,gx为第x次迭代时目标损失值的变化量,gx=lsx-lsx-1,x为大于1的整数。3.根据权利要求1所述的方法,其特征在于,所述根据m组目标损失值确定第t+1次迭代所使用的学习率,使所述学习率与m组目标损失值的变化速率成正比,包括:计算lr't+1,根据lr't+1确定第t+1次迭代的学习率,使所述学习率与m组目标损失值的变化速率成正比;其中,gx为第x次迭代时目标损失值的变化量,gx=lsx-lsx-1,x为大于1的整数;λ为配置参数,用以确定目标损失值的变化速率与学习率的相关度,ε为修正参数,用以平滑数值。4.根据权利要求2或3所述的方法,其特征在于,所述根据lr't+1确定第t+1次迭代的学习率,包括:确定lr't+1是否小于lrmin;如果lr't+1小于lrmin,将第t+1次迭代的学习率lrt+1确定为lrmin;如果lr't+1不小于lrmin,将第t+1次迭代的学习率lrt+1确定为lr't+1;其中,lrmin为预设的最小学习率。5.根据权利要求2或3所述的方法,其特征在于,所述根据lr't+1确定第t+1次迭代的学习率,包括:确定lr't+1是否大于lrmax;如果lr't+1大于lrmax,将第t+1次迭代的学习率lrt+1确定为lrt+1;如果lr't+1不大于lrmax,将第...
【专利技术属性】
技术研发人员:贺永刚,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。