神经网络的训练方法及装置、计算设备制造方法及图纸

技术编号:17796977 阅读:56 留言:0更新日期:2018-04-25 20:29
本发明专利技术公开了一种神经网络的训练方法及装置、计算设备,其方法包括:将输入数据输入至经训练得到的第一神经网络中,获得第一神经网络的至少一层第一中间层的输出数据;将输入数据输入至待训练的第二神经网络中,获得第二神经网络的至少一层第二中间层的输出数据以及最终输出数据,至少一层第二中间层与至少一层第一中间层具有对应关系;利用至少一层第二中间层的输出数据与至少一层第一中间层的输出数据之间的损失,以及最终输出数据与预标注的输出数据之间的损失,对第二神经网络进行训练。本发明专利技术在保持第二神经网络在其计算量不变的情况下,可以大大提升第二神经网络的性能。

Training methods, devices and computing devices of neural networks

The invention discloses a training method and a device and a computing device for a neural network. The method includes input data into the trained first neural network to obtain the output data of at least one layer of first middle layer of the first neural network, and input the input data into the second neural network to be trained and obtain the input data. The output data and the final output data of at least one layer of the second middle layer of the second neural network are corresponding to at least one layer of the intermediate layer and at least one layer of first intermediate layer; the loss between the output data of the at least one layer of the second middle layer and the outgoing data of at least one layer of the first intermediate layer, and the final transmission. The loss of data and pre annotated output data is trained on the second neural network. The second neural network can greatly enhance the performance of the second neural network when its computation amount is constant.

【技术实现步骤摘要】
神经网络的训练方法及装置、计算设备
本专利技术涉及深度学习领域,具体涉及一种神经网络的训练方法及装置、计算设备。
技术介绍
深度学习源于对人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。基于建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据。深度学习可以用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习可以应用于如人脸检测、人脸识别、场景分析等多种应用中。随着深度学习的发展,深度学习的应用也越来越广泛。应用深度学习的网络的速度越快,其准确率越高,其性能越好。如使用深层网络(云端服务器等)进行深度学习时,其可以提供给深度学习较佳的环境支持,拟合能力较佳。但当使用浅层网络(如移动设备)进行深度学习时,受其本身环境的限制,计算能力有限、拟合能力较差,通常无法得到较好的性能。因此,需要一种神经网络的训练方法,以便提升使用浅层网络时深度学习的性能。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的神经网络的训练方法及装置、计算设备。根据本专利技术的一个方面,提供了一种神经网络的训练方法,其包括:将输入数据输入至经训练得到的第一神经网络中,获得第一神经网络的至少一层第一中间层的输出数据;将输入数据输入至待训练的第二神经网络中,获得第二神经网络的至少一层第二中间层的输出数据以及最终输出数据,至少一层第二中间层与至少一层第一中间层具有对应关系;利用至少一层第二中间层的输出数据与至少一层第一中间层的输出数据之间的损失,以及最终输出数据与预标注的输出数据之间的损失,对第二神经网络进行训练。可选地,第一神经网络的层数多于第二神经网络。可选地,至少一层第一中间层包含第一神经网络的瓶颈层;至少一层第二中间层包含第二神经网络的瓶颈层。可选地,利用至少一层第二中间层的输出数据与至少一层第一中间层的输出数据之间的损失,以及最终输出数据与预标注的输出数据之间的损失,对第二神经网络进行训练进一步包括:根据至少一层第二中间层的输出数据与至少一层第一中间层的输出数据之间的损失更新第二神经网络的权重参数,根据最终输出数据与预标注的输出数据之间的损失更新第二神经网络的权重参数,对第二神经网络进行训练。可选地,在将输入数据输入至待训练的第二神经网络中,获得第二神经网络的至少一层第二中间层的输出数据以及最终输出数据之前,方法还包括:将输入数据进行下采样处理,将处理后的数据作为第二神经网络的输入数据。可选地,利用至少一层第二中间层的输出数据与至少一层第一中间层的输出数据之间的损失,以及最终输出数据与预标注的输出数据之间的损失,对第二神经网络进行训练进一步包括:利用至少一层第二中间层的输出数据与至少一层第一中间层的输出数据之间的损失,以及最终输出数据与对下采样处理后数据的预标注的输出数据之间的损失,对第二神经网络进行训练。根据本专利技术的另一方面,提供了一种神经网络的训练装置,其包括:第一输出模块,适于将输入数据输入至经训练得到的第一神经网络中,获得第一神经网络的至少一层第一中间层的输出数据;第二输出模块,适于将输入数据输入至待训练的第二神经网络中,获得第二神经网络的至少一层第二中间层的输出数据以及最终输出数据,至少一层第二中间层与至少一层第一中间层具有对应关系;训练模块,适于利用至少一层第二中间层的输出数据与至少一层第一中间层的输出数据之间的损失,以及最终输出数据与预标注的输出数据之间的损失,对第二神经网络进行训练。可选地,第一神经网络的层数多于第二神经网络。可选地,至少一层第一中间层包含第一神经网络的瓶颈层;至少一层第二中间层包含第二神经网络的瓶颈层。可选地,训练模块进一步适于:根据至少一层第二中间层的输出数据与至少一层第一中间层的输出数据之间的损失更新第二神经网络的权重参数,根据最终输出数据与预标注的输出数据之间的损失更新第二神经网络的权重参数,对第二神经网络进行训练。可选地,装置还包括:下采样模块,适于将输入数据进行下采样处理,将处理后的数据作为第二神经网络的输入数据。可选地,训练模块进一步适于:利用至少一层第二中间层的输出数据与至少一层第一中间层的输出数据之间的损失,以及最终输出数据与对下采样处理后数据的预标注的输出数据之间的损失,对第二神经网络进行训练。根据本专利技术的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述神经网络的训练方法对应的操作。根据本专利技术的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述神经网络的训练方法对应的操作。根据本专利技术提供的神经网络的训练方法及装置、计算设备,将输入数据输入至经训练得到的第一神经网络中,获得第一神经网络的至少一层第一中间层的输出数据;将输入数据输入至待训练的第二神经网络中,获得第二神经网络的至少一层第二中间层的输出数据以及最终输出数据,至少一层第二中间层与至少一层第一中间层具有对应关系;利用至少一层第二中间层的输出数据与至少一层第一中间层的输出数据之间的损失,以及最终输出数据与预标注的输出数据之间的损失,对第二神经网络进行训练。本专利技术通过利用第一神经网络的至少一层第一中间层的输出数据对第二神经网络对应的至少一层第二中间层的输出数据进行训练,可以保持第二神经网络在其计算量不变的情况下,大大提升第二神经网络的性能,有效的缩减训练第二神经网络的训练时间,提高第二网络的训练效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的神经网络的训练方法的流程图;图2示出了根据本专利技术另一个实施例的神经网络的训练方法的流程图;图3示出了根据本专利技术一个实施例的神经网络的训练装置的功能框图;图4示出了根据本专利技术另一个实施例的神经网络的训练装置的功能框图;图5示出了根据本专利技术一个实施例的一种计算设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一个实施例的神经网络的训练方法的流程图。如图1所示,神经网络的训练方法具体包括如下步骤:步骤S101,将输入数据输入至经训练得到的第一神经网络中,获得第一神经网络的至少一层第一中间层的输出数据。第一神经网络为预先经过训练已经固化的神经网络。本文档来自技高网...
神经网络的训练方法及装置、计算设备

【技术保护点】
一种神经网络的训练方法,其包括:将所述输入数据输入至经训练得到的第一神经网络中,获得第一神经网络的至少一层第一中间层的输出数据;将所述输入数据输入至待训练的第二神经网络中,获得第二神经网络的至少一层第二中间层的输出数据以及最终输出数据,所述至少一层第二中间层与所述至少一层第一中间层具有对应关系;利用所述至少一层第二中间层的输出数据与所述至少一层第一中间层的输出数据之间的损失,以及所述最终输出数据与预标注的输出数据之间的损失,对第二神经网络进行训练。

【技术特征摘要】
1.一种神经网络的训练方法,其包括:将所述输入数据输入至经训练得到的第一神经网络中,获得第一神经网络的至少一层第一中间层的输出数据;将所述输入数据输入至待训练的第二神经网络中,获得第二神经网络的至少一层第二中间层的输出数据以及最终输出数据,所述至少一层第二中间层与所述至少一层第一中间层具有对应关系;利用所述至少一层第二中间层的输出数据与所述至少一层第一中间层的输出数据之间的损失,以及所述最终输出数据与预标注的输出数据之间的损失,对第二神经网络进行训练。2.根据权利要求1所述的方法,其中,所述第一神经网络的层数多于第二神经网络。3.根据权利要求1或2所述的方法,其中,所述至少一层第一中间层包含第一神经网络的瓶颈层;所述至少一层第二中间层包含第二神经网络的瓶颈层。4.根据权利要求1-3中任一项所述的方法,其中,所述利用所述至少一层第二中间层的输出数据与所述至少一层第一中间层的输出数据之间的损失,以及所述最终输出数据与预标注的输出数据之间的损失,对第二神经网络进行训练进一步包括:根据所述至少一层第二中间层的输出数据与所述至少一层第一中间层的输出数据之间的损失更新所述第二神经网络的权重参数,根据所述最终输出数据与预标注的输出数据之间的损失更新所述第二神经网络的权重参数,对第二神经网络进行训练。5.根据权利要求1-4中任一项所述的方法,其中,在所述将所述输入数据输入至待训练的第二神经网络中,获得第二神经网络的至少一层第二中间层的输出数据以及最终输出数据之前,所述方法还包括:将所述输入数据进行下采样处理,将处理后的数据作为第二神经网络的输入数据。6.根据权...

【专利技术属性】
技术研发人员:董健韩玉刚颜水成
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1