用于自适应调整学习率的方法和装置制造方法及图纸

技术编号：23315913 阅读：30 留言：0更新日期：2020-02-11 18:05

本公开的实施例公开了用于自适应调整学习率的方法和装置。该方法的一具体实施方式包括：初始化模型的初始的学习率和模型参数；计算模型参数的梯度；执行如下衰减步骤：根据梯度和学习率计算局部一阶导数；确定局部一阶导数是否满足预定条件；若满足，则根据梯度和学习率更新模型参数；若不满足，则衰减学习率，基于衰减后的学习率继续执行上述衰减步骤。该实施方式解决了人工设计学习衰减策略繁琐的调参问题，同时解决了简单的学习率下降策略无法收敛到较优模型参数的问题。

Methods and devices for adaptive learning rate adjustment

全部详细技术资料下载

【技术实现步骤摘要】
用于自适应调整学习率的方法和装置
本公开的实施例涉及计算机
，具体涉及用于自适应调整学习率的方法和装置。
技术介绍
最近几年，深度学习技术在很多方向上都取得了巨大的成功，深度学习技术中，学习率的下降策略(包括初始学习率)对于优化器至关重要。模型的收敛速度以及模型最终的收敛精度受到学习率下降策略限制。当前主要的方式时通过人工设置学习率策略调整学习率，或是设置简单的学习率衰减规则来控制学习率。设置简单的学习率下降策略，指数衰减，倒数衰减，余弦衰减等策略，虽然不需要人工干预，但过于简单，学习率只与迭代轮次相关而与模型的局部梯度特性无关，因此很难收敛到较优的模型参数。人工设置学习率，非常依赖于人们的先验信息，对于新的任务没有合适的策略可以借鉴。此外，无论新旧任务，对于学习率的调参都非常繁琐，会消耗科研人员非常多的精力，同时会因为冗余的调试造成设备资源的浪费。
技术实现思路
本公开的实施例提出了用于自适应调整学习率的方法和装置。第一方面，本公开的实施例提供了一种用于自适应调整学习率的方法，包括：初始化...

【技术保护点】
1.一种用于自适应调整学习率的方法，包括：/n初始化模型的初始的学习率和模型参数；/n计算所述模型参数的梯度；/n执行如下衰减步骤：根据所述梯度和所述学习率计算局部一阶导数；确定所述局部一阶导数是否满足预定条件；若满足，则根据所述梯度和所述学习率更新所述模型参数；/n若不满足，则衰减所述学习率，基于衰减后的学习率继续执行上述衰减步骤。/n

【技术特征摘要】
1.一种用于自适应调整学习率的方法，包括：
初始化模型的初始的学习率和模型参数；
计算所述模型参数的梯度；
执行如下衰减步骤：根据所述梯度和所述学习率计算局部一阶导数；确定所述局部一阶导数是否满足预定条件；若满足，则根据所述梯度和所述学习率更新所述模型参数；
若不满足，则衰减所述学习率，基于衰减后的学习率继续执行上述衰减步骤。

2.根据权利要求1所述的方法，其中，所述方法还包括：
执行如下训练步骤：计算更新后的模型参数的梯度；基于所述梯度继续执行上述衰减步骤，直到所述局部一阶导数满足预定条件；若所述模型满足训练完成条件，则结束训练；
若所述模型不满足训练完成条件，则根据所述梯度和所述学习率更新所述模型参数，继续执行上述训练步骤。

3.根据权利要求1所述的方法，其中，所述方法还包括：
对于每个训练阶段，从该阶段的前预定数目批次训练中获取到至少一个用于更新所述模型参数的学习率，将所述至少一个用于更新所述模型参数的学习率的平均值作为该阶段其它批次训练时使用的学习率。

4.根据权利要求1所述的方法，其中，所述方法还包括：
每次更新所述模型参数后，设置下次训练时初始的学习率不小于本次用于更新所述模型参数的学习率。

5.根据权利要求1-4之一所述的方法，其中，所述预定条件包括：
按照当前的学习率对模型的参数进行更新，更新前后模型的函数表示满足局部凹凸性。

6.一种用于自适应调整学习率的装置，包括：
初始化单元，被配置成初始化模型的初始的学习率和模型参数；
计算单元，被配置成计算所述模型参数的梯度；
衰减单元，被配置成执行如下衰减步骤：根据所述梯度和所述学习率计算局部一阶导数；确定所...

【专利技术属性】
技术研发人员：希滕，张刚，温圣召，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人