一种受优化算法启发的深度神经网络结构设计方法技术

技术编号：19746463 阅读：27 留言：0更新日期：2018-12-12 04:57

本发明专利技术公布了一种受优化算法启发的深度神经网络结构设计方法，对于所有层共享相同的线性和非线性变换的经典前馈网络结构，将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程；进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数F(x)，由此得到新的性能更好的网络结构；可应用于人工智能、计算机视觉等应用领域。采用本发明专利技术技术方案，从优化算法出发设计神经网络结构，能够改进传统的依靠经验、实验尝试搜索的设计方式，得到更高效的神经网络结构，从而节省大量的时间与计算资源。

全部详细技术资料下载

【技术实现步骤摘要】
一种受优化算法启发的深度神经网络结构设计方法
本专利技术涉及深度神经网络结构设计
，尤其涉及一种受优化算法启发的深度神经网络结构设计方法。
技术介绍
随着近年来图像处理器(GPU)计算能力的飞速发展，以及人们能获得的数据量越来越大，深度神经网络在计算机视觉、图像处理和自然语言处理等领域获得了广泛应用。自从2012年深度神经网络在ImageNet分类任务上取得了突破性进展之后，研究者提出了多种不同网络，并且其结构不局限于经典的前馈神经网络结构。在前馈网络结构中，每个神经元只和其后的神经元相连。典型的例子包括文献[1](He,K.,Zhang,X.,Ren,S.,andSun,J.Deepresiduallearningforimagerecognition.InCVPR,2015)记载的ResNet和文献[2](Huang,G.,Liu,Z.,vanderMaaten,L.,andWeinberger,K.Q.Denselyconnectedconvolutionalnetworks.InCVPR,2017)记载的DenseNet，其中前者在传统的前馈网络结构上增加了旁支，后者允许每个神经元和它之后的所有神经元相连。基于卷积神经网络的深度模型在一系列领域取得了广泛的应用，比如自动驾驶、人脸识别、图像识别、检测等等。尽管目前广泛采用的一系列网络结构在性能上相比传统方法具有很大的优势，但是这一系列的网络结构在设计上缺乏准则，更多的是依靠经验摸索与不断的实验调试来确定最终的网络结构。所以研究者在设计新网络结构时具有一定的盲目性，缺乏指导性。已有的网络结构设计...

【技术保护点】
1.一种受优化算法启发的深度神经网络结构设计方法，对于所有层共享相同的线性和非线性变换的经典前馈网络结构，将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程；进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数F(x)，由此得到新的性能更好的网络结构；包括如下步骤：1)在所有层共享相同的线性变换的前馈神经网络中，第k层的输出xk和第k+1层的输出xk+1的关系表示为式1：xk+1＝φ(Wxk) (式1)其中，φ是激活函数；W是线性变换；x为网络输出；xk为第k层的输出，xk+1为第k+1层的输出；2)针对不同的激活函数φ，找到具体的函数F(x)，使用梯度下降法对函数F(x)最小化，使得式1等价于式2：xk+1＝xk‑▽F(x) (式2)式2中，▽F(x)表示F(x)的梯度；通过式2使得前馈神经网络中的前向过程等价于使用梯度下降法最小化函数F(x)；3)采用重球法或Nesterov加速算法最小化该函数F(x)，得到相应深度神经网络的结构；分别执行如下操作：3A)使用重球法最小化函数F(x)：在第k次迭代，迭代公式表示为式3：xk+1＝xk‑▽...

【技术特征摘要】
1.一种受优化算法启发的深度神经网络结构设计方法，对于所有层共享相同的线性和非线性变换的经典前馈网络结构，将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程；进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数F(x)，由此得到新的性能更好的网络结构；包括如下步骤：1)在所有层共享相同的线性变换的前馈神经网络中，第k层的输出xk和第k+1层的输出xk+1的关系表示为式1：xk+1＝φ(Wxk)(式1)其中，φ是激活函数；W是线性变换；x为网络输出；xk为第k层的输出，xk+1为第k+1层的输出；2)针对不同的激活函数φ，找到具体的函数F(x)，使用梯度下降法对函数F(x)最小化，使得式1等价于式2：xk+1＝xk-▽F(x)(式2)式2中，▽F(x)表示F(x)的梯度；通过式2使得前馈神经网络中的前向过程等价于使用梯度下降法最小化函数F(x)；3)采用重球法或Nesterov加速算法最小化该函数F(x)，得到相应深度神经网络的结构；分别执行如下操作：3A)使用重球法最小化函数F(x)：在第k次迭代，迭代公式表示为式3：xk+1＝xk-▽F(x)+β(xk-xk-1)(式3)其中，β为待定常数；式3等价于式4所示的前向过程：xk+1＝φ(Wxk)+β(xk-xk-1)(式4)由此得到相应深度神经网络的结构，称为重球算法网络HB-Net；3B)采用Nesterov加速算法最小化函数F(x)：在第k次迭代，迭代公式表示为式5：其中，00＝1式5等价于式6所示前向过程：由此得到相应神经网络的结构，称为加速算法网络AGD-Net。2.如权利要求1所述受优化算法启发的深度神经网络结构设计方法，其特征是，进一步定义元操作拓展重球算法网络HB-Net和加速算法网络AGD-Net的网络结构；元操作包括：A.定义元操作松弛φ和W，将全连接的线性变换松弛为卷积操作，且允许不同的层具有不同的权重；将激活函数φ松弛为BN操作，且允许φ为激活函数、pooling、BN、卷积和全连接线性变换的复合操作；B.定义元操作自适应参数，重球算法网络HB-Net和加速算法网络AGD-Net中的系数β和hk，j自由设置，并使其在...

【专利技术属性】
技术研发人员：林宙辰，李欢，杨一博，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人