基于L2重新正则化Adam切换模拟回火SGD的深度学习方法技术

技术编号:20222283 阅读:25 留言:0更新日期:2019-01-28 20:38
本发明专利技术提供一种基于L2重新正则化Adam切换模拟回火SGD的深度学习方法,属于模式识别技术领域。该方法先利用Adam算法进行快速收敛,之后由算法根据一定的条件自行切换至SGD算法,以达到更好的收敛状态。在切换条件的选择思路上则首先根据梯度的正交平行四边形算法计算得到切换到SGD时所需要采用的学习率,然后根据Adam与SGD的特性设置了三个切换条件,最后为加强算法效率,使用L2重新正则化和模拟回火分别优化两种算法。该方法在领域公认的小型标准数据集Fashion‑MNIST、Cifar‑10与大型标准数据集ImageNet上进行了实验,在测试集准确率,以及达到可接受收敛的迭代次数等方面,新算法均取得优势,在需要节约时间、运算配置相对不高的现场环境具有创新意义。

【技术实现步骤摘要】
基于L2重新正则化Adam切换模拟回火SGD的深度学习方法
本专利技术涉及三维图像标准数据库数据的模式识别
,特别是指一种基于L2重新正则化Adam切换模拟回火SGD的深度学习方法。
技术介绍
深度学习作为目前最前沿的计算机理论及人工智能领域研究领域,其网络结构的搭建以及梯度下降环节的优化器研究是目前研究的重点与热点。目前应用较广泛的梯度下降优化器算法主要是SGD和Adam以及基于这两种算法的各类变体。SGD算法是基于最典型的梯度下山算法而衍生出来的,即随机使用固定数目的样本(如128个)就更新一次,但SGD收敛的速度仍然偏慢,而且可能会在梯度几乎为0的鞍点或梯度比较差的局部最优点两侧持续震荡,没有足够的应对策略跳出局部最优。DiederikKingma和JimmyBa在2015年的国际学习表征会议上提出了Adam,它结合了前面算法的加速特点,使用一阶和二阶两种动量做偏置校正后进行权重更新,它不受梯度的伸缩变换影响,收敛速度明显优于SGD。但它同样存在之前算法的缺点,一是二阶动量的累积可能会对前期出现的特征过拟合,而后期出现的特征很难纠正前期的拟合效果,导致梯度变化时大时小,可能在训练后期引起梯度下降的震荡,模型无法收敛。二是仍旧存在局部最优问题,在某些空间产生的起伏性区间进入后无法跳出。目前深度学习领域主流的观点认为,Adam等自适应学习率算法对于稀疏数据具有优势,且收敛速度很快;但精调参数的SGD往往能够取得更好的最终结果。DanielJiwoongIm所设计的著名的多个特定超平面空间的寻优实验,证明了在这种类似的条件下,每两种算法几乎总会搜寻完全不同的方向,尤其是在“波谷”分列在“波峰”两侧且最小值相差不大的时候。这充分证明不同算法需要进行筛选和切换的意义。
技术实现思路
本专利技术要解决的技术问题是提供一种基于L2重新正则化Adam切换模拟回火SGD的深度学习方法。该方法包括步骤如下:(1)将标准数据库中的数据进行特征提取以及数据增强,将信号输入到L2重新正则化的Adam为初始优化器的深度学习网络;每次迭代中依据得到的梯度,计算得到假设在该次迭代下切换模拟回火SGD优化器的学习率,以及该次迭代完成后深度学习网络权重ωt矩阵At=(ωt)Tωt的迹tr(At)与其特征值的平方和QS(At);(2)在步骤(1)中经过一定的判断条件,得到下一次迭代是否进行切换,若是,则切换至模拟回火SGD优化器,并使用该优化器至迭代结束;若否,则不改变优化器类型,继续步骤(1)及步骤(2)中迭代与判断的过程。其中,步骤(1)中L2重新正则化的Adam权重更新方法为其中m为训练集的样本数目,αk为初始学习率,pk为传统的梯度更新值,ωk为更新前的权重。步骤(1)中模拟回火SGD的学习率更新方法为其中,和是在第i次迭代中学习率的取值范围,Tcur表示自上一次重启以来的迭代次数,Ti表示下一次重启时的迭代次数。步骤(1)中求得的模拟回火SGD优化器的学习率为其中gt为梯度方向,为Adam得到的梯度下降方向。步骤(2)中一定的判断条件,具体过程如下:lrSGD>0,|tr(At)-tr(At-1)|>ε2,|QS(At)-QS(At-1)|>ε2,其中为假设在该次迭代下切换模拟回火SGD优化器的学习率,lrSGD为此前学习率的移动平均值;ε1为极小值,ε2为极大值。本专利技术的上述技术方案的有益效果如下:上述方案中,与现有的算法相比,成功结合了Adam前期收敛速度快和SGD后期收敛效果好的特点,在100次迭代次数内新算法的收敛速度高于SGD,在后期新算法的收敛效果则超过了Adam,尤其在迭代次数小于250次时新算法的效率明显更高,且去除正常学习率衰减因素外的误差震荡相对较小。在需要减少迭代次数的前提下,新算法可以尽快的达到需要的效果。附图说明图1为本专利技术的基于L2重新正则化Adam切换模拟回火SGD的深度学习方法流程图;图2为本专利技术中L2重新正则化的Adam与经典Adam在不同标准数据集下的平均训练效果,其中,(a)为CIFAR-10数据集,(b)为Fashion-MNIST数据集;图3为本专利技术中模拟回火SGD与经典SGD在不同标准数据集下的平均训练效果,其中,(a)为CIFAR-10数据集,(b)为Fashion-MNIST数据集;图4为本专利技术提出的新算法算法与经典两种优化器在不同标准数据集下的平均训练效果,其中,(a)为CIFAR-10数据集,(b)为Fashion-MNIST数据集;图5为本专利技术提出的新算法与经典两种优化器在ImageNet标准数据集下的平均训练效果,其中,(a)为完整的训练集学习曲线,(b)为1-100次迭代学习曲线放大图,(c)为100-199次迭代学习曲线放大图,(d)为200-299次迭代学习曲线放大图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。本专利技术提供一种基于L2重新正则化Adam切换模拟回火SGD的深度学习方法。如图1所示,该方法步骤为:(1)将标准数据库中的数据进行特征提取以及数据增强,将信号输入到L2重新正则化的Adam为初始优化器的深度学习网络;每次迭代中依据得到的梯度,计算得到假设在该次迭代下切换模拟回火SGD优化器的学习率,以及该次迭代完成后深度学习网络权重ωt矩阵At=(ωt)Tωt的迹tr(At)与其特征值的平方和QS(At);(2)在步骤(1)中经过一定的判断条件,得到下一次迭代是否进行切换,若是,则切换至模拟回火SGD优化器,并使用该优化器至迭代结束;若否,则不改变优化器类型,继续步骤(1)及步骤(2)中迭代与判断的过程。其中,步骤(1)中L2重新正则化的Adam方法如下:权重更新方法为其中m为训练集的样本数目,αk为初始学习率,pk为传统的梯度更新值,ωk为更新前的权重。步骤(1)中模拟回火SGD的学习率更新方法如下:学习率更新方法为其中,和是在第i次迭代中学习率的取值范围,Tcur表示自上一次重启以来的迭代次数,Ti表示下一次重启时的迭代次数。步骤(1)中切换模拟回火SGD优化器的学习率如下:求得的模拟回火SGD优化器的学习率为其中gt为梯度方向,为Adam得到的梯度下降方向。步骤(2)中下一次迭代是否进行切换的判断条件如下:lrSGD>0,|tr(At)-tr(At-1)|>ε2,|QS(At)-QS(At-1)|>ε2其中为假设在该次迭代下切换模拟回火SGD优化器的学习率,lrSGD为此前学习率的移动平均值;ε1为极小值,ε2为极大值。针对L2重新正则化Adam与模拟回火SGD优化算法,本专利技术在CIFAR-10以及由Xiao等人改进的Fashion-MNIST两个标准集上分别进行了基于不同深度学习网络结构的多次训练,讨论其在标准数据集上的实验效果。首先在ResNet的多层网络架构上以两种标准数据集进行多次含L2重新正则化与传统Adam优化器的对比实验,结果如图2与表1所示。可以看出,L2重新正则化的Adam相比未正则化的优化器在训练效果上总体略有提高,可以在本专利技术整体的算法中应用进行局部优化。表1在不同的ResNet网络结构下,传统Adam在两种标准数据集中的训练情况汇总对比表2在不同的ResNe本文档来自技高网
...

【技术保护点】
1.一种基于L2重新正则化Adam切换模拟回火SGD的深度学习方法,其特征在于:包括步骤如下:(1)将标准数据库中的数据进行特征提取以及数据增强,将信号输入到L2重新正则化的Adam为初始优化器的深度学习网络;每次迭代中依据得到的梯度,计算得到假设在该次迭代下切换模拟回火SGD优化器的学习率,以及该次迭代完成后深度学习网络权重ωt矩阵At=(ωt)Tωt的迹tr(At)与其特征值的平方和QS(At);(2)在步骤(1)中经过一定的判断条件,得到下一次迭代是否进行切换,若是,则切换至模拟回火SGD优化器,并使用该优化器至迭代结束;若否,则不改变优化器类型,继续步骤(1)及步骤(2)中迭代与判断的过程。

【技术特征摘要】
1.一种基于L2重新正则化Adam切换模拟回火SGD的深度学习方法,其特征在于:包括步骤如下:(1)将标准数据库中的数据进行特征提取以及数据增强,将信号输入到L2重新正则化的Adam为初始优化器的深度学习网络;每次迭代中依据得到的梯度,计算得到假设在该次迭代下切换模拟回火SGD优化器的学习率,以及该次迭代完成后深度学习网络权重ωt矩阵At=(ωt)Tωt的迹tr(At)与其特征值的平方和QS(At);(2)在步骤(1)中经过一定的判断条件,得到下一次迭代是否进行切换,若是,则切换至模拟回火SGD优化器,并使用该优化器至迭代结束;若否,则不改变优化器类型,继续步骤(1)及步骤(2)中迭代与判断的过程。2.根据权利要求1所述的基于L2重新正则化Adam切换模拟回火SGD的深度学习方法,其特征在于:所述步骤(1)中L2重新正则化的Adam权重更新方法为其中m为训练集的样本数目,αk为初始学习率,pk为传统的梯度更新值,ωk为...

【专利技术属性】
技术研发人员:张勇军刘非
申请(专利权)人:北京科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1