基于L2重新正则化Adam切换模拟回火SGD的深度学习方法技术

技术编号:20222283 阅读:50 留言:0更新日期:2019-01-28 20:38
本发明专利技术提供一种基于L2重新正则化Adam切换模拟回火SGD的深度学习方法,属于模式识别技术领域。该方法先利用Adam算法进行快速收敛,之后由算法根据一定的条件自行切换至SGD算法,以达到更好的收敛状态。在切换条件的选择思路上则首先根据梯度的正交平行四边形算法计算得到切换到SGD时所需要采用的学习率,然后根据Adam与SGD的特性设置了三个切换条件,最后为加强算法效率,使用L2重新正则化和模拟回火分别优化两种算法。该方法在领域公认的小型标准数据集Fashion‑MNIST、Cifar‑10与大型标准数据集ImageNet上进行了实验,在测试集准确率,以及达到可接受收敛的迭代次数等方面,新算法均取得优势,在需要节约时间、运算配置相对不高的现场环境具有创新意义。

【技术实现步骤摘要】
基于L2重新正则化Adam切换模拟回火SGD的深度学习方法
本专利技术涉及三维图像标准数据库数据的模式识别
,特别是指一种基于L2重新正则化Adam切换模拟回火SGD的深度学习方法。
技术介绍
深度学习作为目前最前沿的计算机理论及人工智能领域研究领域,其网络结构的搭建以及梯度下降环节的优化器研究是目前研究的重点与热点。目前应用较广泛的梯度下降优化器算法主要是SGD和Adam以及基于这两种算法的各类变体。SGD算法是基于最典型的梯度下山算法而衍生出来的,即随机使用固定数目的样本(如128个)就更新一次,但SGD收敛的速度仍然偏慢,而且可能会在梯度几乎为0的鞍点或梯度比较差的局部最优点两侧持续震荡,没有足够的应对策略跳出局部最优。DiederikKingma和JimmyBa在2015年的国际学习表征会议上提出了Adam,它结合了前面算法的加速特点,使用一阶和二阶两种动量做偏置校正后进行权重更新,它不受梯度的伸缩变换影响,收敛速度明显优于SGD。但它同样存在之前算法的缺点,一是二阶动量的累积可能会对前期出现的特征过拟合,而后期出现的特征很难纠正前期的拟合效果,导致梯度变化时大时小,可本文档来自技高网...

【技术保护点】
1.一种基于L2重新正则化Adam切换模拟回火SGD的深度学习方法,其特征在于:包括步骤如下:(1)将标准数据库中的数据进行特征提取以及数据增强,将信号输入到L2重新正则化的Adam为初始优化器的深度学习网络;每次迭代中依据得到的梯度,计算得到假设在该次迭代下切换模拟回火SGD优化器的学习率,以及该次迭代完成后深度学习网络权重ωt矩阵At=(ωt)Tωt的迹tr(At)与其特征值的平方和QS(At);(2)在步骤(1)中经过一定的判断条件,得到下一次迭代是否进行切换,若是,则切换至模拟回火SGD优化器,并使用该优化器至迭代结束;若否,则不改变优化器类型,继续步骤(1)及步骤(2)中迭代与判断的...

【技术特征摘要】
1.一种基于L2重新正则化Adam切换模拟回火SGD的深度学习方法,其特征在于:包括步骤如下:(1)将标准数据库中的数据进行特征提取以及数据增强,将信号输入到L2重新正则化的Adam为初始优化器的深度学习网络;每次迭代中依据得到的梯度,计算得到假设在该次迭代下切换模拟回火SGD优化器的学习率,以及该次迭代完成后深度学习网络权重ωt矩阵At=(ωt)Tωt的迹tr(At)与其特征值的平方和QS(At);(2)在步骤(1)中经过一定的判断条件,得到下一次迭代是否进行切换,若是,则切换至模拟回火SGD优化器,并使用该优化器至迭代结束;若否,则不改变优化器类型,继续步骤(1)及步骤(2)中迭代与判断的过程。2.根据权利要求1所述的基于L2重新正则化Adam切换模拟回火SGD的深度学习方法,其特征在于:所述步骤(1)中L2重新正则化的Adam权重更新方法为其中m为训练集的样本数目,αk为初始学习率,pk为传统的梯度更新值,ωk为...

【专利技术属性】
技术研发人员:张勇军刘非
申请(专利权)人:北京科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1