当前位置: 首页 > 专利查询>北京大学专利>正文

一种受优化算法启发的深度神经网络结构设计方法技术

技术编号:19746463 阅读:27 留言:0更新日期:2018-12-12 04:57
本发明专利技术公布了一种受优化算法启发的深度神经网络结构设计方法,对于所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程;进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数F(x),由此得到新的性能更好的网络结构;可应用于人工智能、计算机视觉等应用领域。采用本发明专利技术技术方案,从优化算法出发设计神经网络结构,能够改进传统的依靠经验、实验尝试搜索的设计方式,得到更高效的神经网络结构,从而节省大量的时间与计算资源。

【技术实现步骤摘要】
一种受优化算法启发的深度神经网络结构设计方法
本专利技术涉及深度神经网络结构设计
,尤其涉及一种受优化算法启发的深度神经网络结构设计方法。
技术介绍
随着近年来图像处理器(GPU)计算能力的飞速发展,以及人们能获得的数据量越来越大,深度神经网络在计算机视觉、图像处理和自然语言处理等领域获得了广泛应用。自从2012年深度神经网络在ImageNet分类任务上取得了突破性进展之后,研究者提出了多种不同网络,并且其结构不局限于经典的前馈神经网络结构。在前馈网络结构中,每个神经元只和其后的神经元相连。典型的例子包括文献[1](He,K.,Zhang,X.,Ren,S.,andSun,J.Deepresiduallearningforimagerecognition.InCVPR,2015)记载的ResNet和文献[2](Huang,G.,Liu,Z.,vanderMaaten,L.,andWeinberger,K.Q.Denselyconnectedconvolutionalnetworks.InCVPR,2017)记载的DenseNet,其中前者在传统的前馈网络结构上增加了旁支,后者允许每个神经元和它之后的所有神经元相连。基于卷积神经网络的深度模型在一系列领域取得了广泛的应用,比如自动驾驶、人脸识别、图像识别、检测等等。尽管目前广泛采用的一系列网络结构在性能上相比传统方法具有很大的优势,但是这一系列的网络结构在设计上缺乏准则,更多的是依靠经验摸索与不断的实验调试来确定最终的网络结构。所以研究者在设计新网络结构时具有一定的盲目性,缺乏指导性。已有的网络结构设计工作主要是基于搜索的启发式方法。在网络结构设计的早期阶段,文献[3](Schaffer,J.D.,Whitley,D.,andEshelman,L.J.Combinationsofgeneticalgorithmsandneuralnetworks:Asurveyofthestateoftheart.InInternationalWorkshoponCombinationsofGeneticAlgorithmsandNeuralNetworks,1992.)、文献[4](Lam,H.K.,Leung,F.H.F.,andTam,P.K.S.Tuningofthestructureandparametersofaneuralnetworkusinganimprovedgeneticalgorithm.IEEETrans.onNeuralNetworks,14:79–88,2003.)均记载了使用遗传算法寻找最优的网络结构和连接权重,但是通常情况下,文献[5](Verbancsics,P.andHarguess,J.Generativeneuroevolutionfordeeplearning.Inarxiv:1312.5355,2013)指出,使用遗传算法设计出的网络结构要比手工设计的网络结构效果更差。文献[6](Domhan,T.,Springenberg,J.T.,andHutter,F.Speedingupautomatichyperparameteroptimizationofdeepneuralnetworksbyextrapolationoflearningcurves.InIJCAI,2015)使用贝叶斯策略搜索网络结构。文献[7](Kwok,T.andYeung,D.Constructivealgorithmsforstructurelearningfeedforwardnerualnetworksforregressionproblems.IEEETrans.onNeuralNetworks,8(3):630–645,1997.)、文献[8](Ma,L.andKhorasani,K.Anewstrategyforadaptivelyconstructingmultiplayerfeedforwardneuralnetworks.Neurocomputing,51:361–385,2003)、文献[9](Cortes,C.,Gonzalvo,X.,Kuznetsov,V.,Mohri,M.,andYang,S.AdaNet:Adaptivestructurelearningofartificialneuralnetworks.InICML,2017.)使用自适应策略来搜索网络结构,具体做法为从一个相对较小的网络结构基于某种原则一层一层地加深网络,相应的原则包括平衡模型复杂度和经验损失最小。文献[10](Baker,B.,Gupta,O.,Naik,N.,andRaskar,R.Designingneuralnetworkarchitecturesusingreinforcemenlearning.Inarxiv:1611.02167,2016)、文献[11](Zoph,B.andLe,Q.V.Neuralarchitecutresearchwithreinforcementlearning.InCoRR,2016)使用强化学习来搜索网络结构。所有上述策略都是基于搜索的启发式策略,即在特定的搜索空间中搜索一个尽可能好的网络结构。因此,基于搜索的方法需要在巨大的搜索空间中搜索出最优策略,当搜索空间巨大且计算能力有限时,现有的基于搜索的方法无法设计出有效的网络结构。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种受优化算法启发的深度神经网络结构的设计方法,以得到新的性能更好的网络结构。本专利技术的技术方案是:一种受优化算法启发的深度神经网络结构设计方法,对于所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程;进一步采用收敛速度更快的重球法(HeavyBallmethod)和Nesterov加速算法(AcceleratedGradientmethod)最小化该函数F(x),由此得到新的性能更好的网络结构。具体包括如下步骤:1)在所有层共享相同的线性变换的前馈神经网络中,第k层的输出xk和第k+1层的输出xk+1的关系表示为式1:xk+1=φ(Wxk)(式1)其中,φ是激活函数,例如Sigmoid或ReLU;W是线性变换;xk为第k层的输出,xk+1为第k+1层的输出。2)针对不同的激活函数φ,找到具体的函数F(x),使得式1等价于式2:其中▽F(x)表示F(x)的梯度。在优化理论中,式2表示使用梯度下降法对函数F(x)最小化,即使得前馈神经网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)。3)采用重球法或Nesterov加速算法最小化该函数F(x),得到相应深度神经网络的结构。分别执行如下操作:3A)使用重球法最小化函数F(x):3A1)在第k次迭代,迭代公式表示为式3:其中,β为待定常数;3A2)式3等价于式4所示的前向过程:xk+1=φ(Wxk)+β(xk-xk-1)(式4)3A3)得到相应深度神经网络的结构,本专利技术称为HB-Net(HeavyBallNetwork,重球算法网络);3B)采用Nesterov加速算法最小化函数F(x):3B1本文档来自技高网
...

【技术保护点】
1.一种受优化算法启发的深度神经网络结构设计方法,对于所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程;进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数F(x),由此得到新的性能更好的网络结构;包括如下步骤:1)在所有层共享相同的线性变换的前馈神经网络中,第k层的输出xk和第k+1层的输出xk+1的关系表示为式1:xk+1=φ(Wxk)  (式1)其中,φ是激活函数;W是线性变换;x为网络输出;xk为第k层的输出,xk+1为第k+1层的输出;2)针对不同的激活函数φ,找到具体的函数F(x),使用梯度下降法对函数F(x)最小化,使得式1等价于式2:xk+1=xk‑▽F(x)  (式2)式2中,▽F(x)表示F(x)的梯度;通过式2使得前馈神经网络中的前向过程等价于使用梯度下降法最小化函数F(x);3)采用重球法或Nesterov加速算法最小化该函数F(x),得到相应深度神经网络的结构;分别执行如下操作:3A)使用重球法最小化函数F(x):在第k次迭代,迭代公式表示为式3:xk+1=xk‑▽F(x)+β(xk‑xk‑1)  (式3)其中,β为待定常数;式3等价于式4所示的前向过程:xk+1=φ(Wxk)+β(xk‑xk‑1)  (式4)由此得到相应深度神经网络的结构,称为重球算法网络HB‑Net;3B)采用Nesterov加速算法最小化函数F(x):在第k次迭代,迭代公式表示为式5:...

【技术特征摘要】
1.一种受优化算法启发的深度神经网络结构设计方法,对于所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程;进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数F(x),由此得到新的性能更好的网络结构;包括如下步骤:1)在所有层共享相同的线性变换的前馈神经网络中,第k层的输出xk和第k+1层的输出xk+1的关系表示为式1:xk+1=φ(Wxk)(式1)其中,φ是激活函数;W是线性变换;x为网络输出;xk为第k层的输出,xk+1为第k+1层的输出;2)针对不同的激活函数φ,找到具体的函数F(x),使用梯度下降法对函数F(x)最小化,使得式1等价于式2:xk+1=xk-▽F(x)(式2)式2中,▽F(x)表示F(x)的梯度;通过式2使得前馈神经网络中的前向过程等价于使用梯度下降法最小化函数F(x);3)采用重球法或Nesterov加速算法最小化该函数F(x),得到相应深度神经网络的结构;分别执行如下操作:3A)使用重球法最小化函数F(x):在第k次迭代,迭代公式表示为式3:xk+1=xk-▽F(x)+β(xk-xk-1)(式3)其中,β为待定常数;式3等价于式4所示的前向过程:xk+1=φ(Wxk)+β(xk-xk-1)(式4)由此得到相应深度神经网络的结构,称为重球算法网络HB-Net;3B)采用Nesterov加速算法最小化函数F(x):在第k次迭代,迭代公式表示为式5:其中,00=1式5等价于式6所示前向过程:由此得到相应神经网络的结构,称为加速算法网络AGD-Net。2.如权利要求1所述受优化算法启发的深度神经网络结构设计方法,其特征是,进一步定义元操作拓展重球算法网络HB-Net和加速算法网络AGD-Net的网络结构;元操作包括:A.定义元操作松弛φ和W,将全连接的线性变换松弛为卷积操作,且允许不同的层具有不同的权重;将激活函数φ松弛为BN操作,且允许φ为激活函数、pooling、BN、卷积和全连接线性变换的复合操作;B.定义元操作自适应参数,重球算法网络HB-Net和加速算法网络AGD-Net中的系数β和hk,j自由设置,并使其在...

【专利技术属性】
技术研发人员:林宙辰李欢杨一博
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1