一种深度神经网络的结构搜索方法及装置制造方法及图纸

技术编号:23162271 阅读:41 留言:0更新日期:2020-01-21 22:05
本申请提供了一种深度神经网络的结构搜索方法及装置,涉及人工智能技术领域。方法包括:在预先设置的搜索空间中获得深度神经网络中依次串接的每个模块中的每层计算单元结构;在每个模块中采用预设连接方式将各计算单元进行连接,得到每个模块中的信息流;根据模块及每个模块中的计算单元的连接情况,得到初始神经网络;对初始神经网络中的信息流设置稀疏缩放算子,其中稀疏缩放算子用于对信息流进行缩放;采用预置的训练样本数据对初始神经网络的权重和信息流的稀疏缩放算子进行训练,得到中间神经网络;将中间神经网络中稀疏缩放算子为零的信息流删除,得到搜索空间内的搜索结果神经网络。本申请可以节省网络结构搜索的时间。

A structure searching method and device of deep neural network

【技术实现步骤摘要】
一种深度神经网络的结构搜索方法及装置
本申请涉及人工智能
,尤其涉及一种深度神经网络的结构搜索方法及装置。
技术介绍
近几年来,深度神经网络在诸多领域中取得了巨大的成功,如计算机视觉、自然语言处理等。深度神经网络通过强大的表征能力,将传统的手工设计的特征转化为了端到端的学习。然而,目前深度神经网络的结构复杂,诸如卷积、池化等计算单元节点众多,使得如何在众多计算单元节点中搜索得到一个结构紧凑、运行速度较快、效果又好的模型结构成为了一个难点。目前现有技术一般采用先定义搜索空间,然后在搜索空间中搜索最优的网络结构。一般情况下可以采用基于控制器的网络结构搜索的启发式方法来进行网络结构搜索,或者使用进化算法来进行网络结构搜索。然而,现有技术中需要控制器进行训练或者使用进化算法来进行网络结构搜索,在搜索过程中需要将全集中的子网络训练到收敛来对子网络进行评估,使得网络结构搜索的时间与计算量极大,对于较大的数据集,采用此种方法搜索到最优网络结构的过程繁琐且缓慢。进而造成图像处理、语音处理、文字处理等应用深度神经网络的任务处理复杂且缓慢。<本文档来自技高网...

【技术保护点】
1.一种深度神经网络的结构搜索方法,其特征在于,包括:/n在预先设置的搜索空间中获得深度神经网络中依次串接的每个模块中的每层计算单元结构;所述每层计算单元结构包括至少一个计算单元;/n在每个模块中采用预设连接方式将各计算单元进行连接,得到每个模块中的信息流;其中,处于同一层计算单元结构的计算单元之间不进行连接,每个计算单元能够与和其所在模块中的不同层的计算单元,以及其所在模块的输入和输出进行连接;/n根据模块及每个模块中的计算单元的连接情况,得到初始神经网络;/n对所述初始神经网络中的信息流设置稀疏缩放算子,其中所述稀疏缩放算子用于对所述信息流进行缩放;/n采用预置的训练样本数据对所述初始神经...

【技术特征摘要】
20181026 CN 20181125903321.一种深度神经网络的结构搜索方法,其特征在于,包括:
在预先设置的搜索空间中获得深度神经网络中依次串接的每个模块中的每层计算单元结构;所述每层计算单元结构包括至少一个计算单元;
在每个模块中采用预设连接方式将各计算单元进行连接,得到每个模块中的信息流;其中,处于同一层计算单元结构的计算单元之间不进行连接,每个计算单元能够与和其所在模块中的不同层的计算单元,以及其所在模块的输入和输出进行连接;
根据模块及每个模块中的计算单元的连接情况,得到初始神经网络;
对所述初始神经网络中的信息流设置稀疏缩放算子,其中所述稀疏缩放算子用于对所述信息流进行缩放;
采用预置的训练样本数据对所述初始神经网络的权重和信息流的稀疏缩放算子进行训练,得到中间神经网络;
将所述中间神经网络中稀疏缩放算子为零的信息流删除,得到搜索空间内的搜索结果神经网络。


2.根据权利要求1所述的深度神经网络的结构搜索方法,其特征在于,所述每层计算单元结构的计算单元包括卷积计算单元和池化计算单元中的至少一种。


3.根据权利要求1所述的深度神经网络的结构搜索方法,其特征在于,在每个模块中采用预设连接方式将各计算单元进行连接,得到每个模块中的信息流,包括:
在每个模块中,将每个计算单元与和其所在模块中的不同层的计算单元,以及其所在模块的输入和输出进行连接;得到从模块的输入到每层计算单元结构、从每层计算单元结构到模块的输出,以及各计算单元之间的信息流。


4.根据权利要求1所述的深度神经网络的结构搜索方法,其特征在于,在根据模块及每个模块中的计算单元的连接情况,得到初始神经网络之后,还包括:
对初始神经网络的权重进行配置,以初始化初始神经网络的权重。


5.根据权利要求1所述的深度神经网络的结构搜索方法,其特征在于,在根据模块及每个模块中的计算单元的连接情况,得到初始神经网络之后,还包括:
采用预置的预训练样本数据对所述初始神经网络的权重进行预训练,得到预训练后的初始神经网络。


6.根据权利要求1所述的深度神经网络的结构搜索方法,其特征在于,在将所述中间神经网络中稀疏缩放算子为零的信息流删除之后,还包括:
在与一计算单元的连接对应的信息流均被删除后,将该计算单元删除。


7.根据权利要求1所述的深度神经网络的结构搜索方法,其特征在于,所述采用预置的训练样本数据对所述初始神经网络的权重和信息流的稀疏缩放算子进行训练,得到中间神经网络,包括:
构建初始神经网络对应的目标函数,所述目标函数包含损失函数、权重正则函数和稀疏正则函数;
采用所述训练样本数据对所述初始神经网络进行迭代训练;
当迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时,得到所述中间神经网络。


8.根据权利要求7所述的深度神经网络的结构搜索方法,其特征在于,所述采用所述训练样本数据对所述初始神经网络进行迭代训练,具体包括:
对所述初始神经网络进行多次以下的迭代训练:
将前一次迭代训练得到的稀疏缩放算子作为所述目标函数的常量,将所述权重作为所述目标函数的变量,采用第一优化算法对所述目标函数进行优化,得到本次迭代训练的权重;
将本次迭代训练的权重作为所述目标函数的常量,将稀疏缩放算子作为所述目标函数的变量,采用第二优化算法对所述目标函数进行优化,得到本次迭代训练的稀疏缩放算子;
基于本次迭代训练的权重和稀疏缩放算子进行下一次迭代训练。


9.根据权利要求8所述的深度神经网络的结构搜索方法,其特征在于,所述第二优化算法为加速近端梯度下降算法、近端梯度下降算法或者交替方向乘子算法。


10.根据权利要求7所述的方法,其特征在于,所述目标函数为:



其中,W为权重,λ为稀疏缩放算子向量,K为样本数据的数量,L(yi,Net(xi,W,λ))为神经网络在样本数据xi上的损失,yi为样本标签,Net(xi,W,λ)为神经网络的输出,为权重正则函数,δ为权重W的参数衰减权重,γ||λ||1为稀疏正则函数。


11.一种目标检测方法,其特征在于,包括:
获得待进行目标检测的样本数据,输入到采用权利要求1至10任一项所述的深度神经网络的结构搜索方法得到的搜索结果神经网络中,以所述搜索结果神经网络的输出作为目标检测结果。


12.一种语义分割方法,其特征在于,包括:
获得待进行语义分割的样本数据,输入到采用权利要求1至10任一项所述的深度神经网络的结构搜索方法得到的搜索结果神经网络中,以所述搜索结果神经网络的输出作为语义分割结果。


13.一种图像分类方法,其特征在于,包括:
获得待进行图像分类的样本数据,输入到采用权利要求1至10任一项所述的深度神经网络的结构搜索方法得到的搜索结果神经网络中,以所述搜索结果神经网络的输出作为图像分类结果。


14.一种语音处理方法,其特征在于,包括:
获得待进行语音处理的样本数据,输入到采用权利要求1至10任一项所述的深度神经网络的结构搜索方法得到的搜索结果神经网络中,以所述搜索结果神经网络的输出作为语音处理结果。


15.一种文字处理方法,其特征在于,包括:
获得待进行文字处理的样本数据,输入到采用权利要求1至10任一项所述的深度神经网络的结构搜索方法得到的搜索结果神经网络中,以所述搜索结果神经网络的输出作为文字处理结果。


16.一种深度神经网络的结构搜索装置,其特征在于,包括:
计算单元结构获得单元,用于在预先设置的搜索空间中获得深度神经网络中依次串接的每个模块中的每层计算单元结构;所述每层计算单元结构包括至少一个计算单元;
信息流获得单元,用于在每个模块中采用预设连接方式将各计算单元进行连接,得到每个模块中的信息流;其中,处于同一层计算单元结构的计算单元之间不进行连接,每个计算单元能够与和其所在模块中的不同层的计算单元,以及其所在模块的输入和输出进行连接;
初始神经网络获得单元,用于根据模块及每个模块中的计算单元的连接情况,得到初始神经网络;
稀疏缩放算子设置单元,用于对所述初始神经网络中的信息流设置稀疏缩放算子,其中所述稀疏缩放算子用于对所述信息流进行缩放;
权重和算子训练单元,用于采用预置的训练样本数据对所述初始神经网络的权重和信息流的稀疏缩放算子进行训练,得到中间神经网络;
搜索结果获得单元,用于将所述中间神经网络中稀疏缩放算子为零的信息流删除,得到搜索空间内的搜索结果神经网络。


17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10任一项所述的深度神经网络的结构搜索方法。


18.一种计算机设备,包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至10任一项所述的深度神经网络的结构搜索方法。


19.一种包含指令的计算机程序产品,其特征在于,当所述计算机程序产品...

【专利技术属性】
技术研发人员:黄泽昊张新邦王乃岩
申请(专利权)人:北京图森未来科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1