一种神经网络训练方法及装置制造方法及图纸

技术编号:16587908 阅读:32 留言:0更新日期:2017-11-18 15:37
本发明专利技术公开一种神经网络训练方法及装置,以提升学生网络的性能。方法包括:选取一个与学生网络实现相同功能的教师网络;基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络,以实现将所述教师网络的输出数据间相似性迁移到所述学生网络;其中:所述第一输出数据为所述训练样本数据输入教师网络后从教师网络的第一特定网络层输出的数据,所述第二输出数据为所述训练样本数据输入学生网络后从学生网络的第二特定网络层输出的数据。本发明专利技术技术方案根据教师网络的输出数据间相似性训练得到的学生网络性能更优。

A neural network training method and device

The invention discloses a neural network training method and device to enhance the performance of the student network. The method includes: to achieve the same function to select a network of teachers and students' network; the first output data, the same training sample data corresponding to the similarity between data and the second output data similarity to the iterative training students' network target based on network, to achieve the output data of the network between teachers similar to the migration of students' network; wherein the first output data for the training sample data input from the network of teachers teachers' network after the first specific network layer output data, the second output data for the training sample data input from the student network after the student network second specific network layer data output. The technical scheme of the invention has better network performance according to the similarity training between the output data of the teachers' network.

【技术实现步骤摘要】
一种神经网络训练方法及装置
本专利技术涉及计算机视觉领域,特别涉及一种神经网络训练方法及装置。
技术介绍
近几年来,深度神经网络在计算机视觉领域的各类应用中取得了巨大的成功,如图像分类、目标检测、图像分割等。但深度神经网络的模型往往包含大量的模型参数,计算量大、处理速度慢,无法在一些低功耗、低计算能力的设备(如嵌入式设备、集成设备等)上进行实时计算。目前,为解决该问题,提出一些解决方案,例如,通过知识迁移方式将教师网络的知识(即教师网络,教师网络一般具有复杂的网络结构、准确性高、计算速度慢)迁移到学生网络中(即学生网络,学生网络的网络结构相对简单、准确性低、速度快),以提高学生网络性能。此时的学生网络可应用到低功耗、地计算能力的设备中。知识迁移是一种通用的对深度神经网络模型进行压缩以及加速的技术。目前知识迁移的方法主要包括三种,分别是2014年Hinton等人发表的论文“Distillingtheknowledgeinaneuralnetwork”中提出的KnowledgeDistill(简称KD)方法,2015年Romero等人发表的论文“Fitnets:Hintsforthind本文档来自技高网...
一种神经网络训练方法及装置

【技术保护点】
一种神经网络训练方法,其特征在于,包括:选取一个与学生网络实现相同功能的教师网络;基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络,以实现将所述教师网络的输出数据间相似性迁移到所述学生网络;其中:所述第一输出数据为所述训练样本数据输入教师网络后从教师网络的第一特定网络层输出的数据,所述第二输出数据为所述训练样本数据输入学生网络后从学生网络的第二特定网络层输出的数据。

【技术特征摘要】
1.一种神经网络训练方法,其特征在于,包括:选取一个与学生网络实现相同功能的教师网络;基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络,以实现将所述教师网络的输出数据间相似性迁移到所述学生网络;其中:所述第一输出数据为所述训练样本数据输入教师网络后从教师网络的第一特定网络层输出的数据,所述第二输出数据为所述训练样本数据输入学生网络后从学生网络的第二特定网络层输出的数据。2.根据权利要求1所述的方法,其特征在于,基于匹配同一训练样本数据对应的第一输出数据的样本间相似性与第二输出数据的样本间相似性来迭代训练所述学生网络得到目标网络,具体包括:构建所述学生网络的目标函数,所述目标函数包含训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性的匹配函数;采用所述训练样本数据对所述学生网络进行迭代训练;当迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时,得到所述目标网络。3.根据权利要求2所述的方法,其特征在于,采用所述训练样本数据对所述学生网络进行迭代训练,具体包括:对所述学生网络进行多次以下迭代训练:将用于本次迭代训练的当前训练样本数据分别输入所述教师网络和学生网络,得到对应的第一输出数据和第二输出数据;计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度;根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率,并从所述第一输出数据中各数据的所有排列顺序中选取目标排列顺序;根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率;根据第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率计算所述目标函数的取值,并根据所述目标函数的取值调整所述学生网络的权重;基于调整权重后的学生网络进行下一次迭代训练。4.根据权利要求3所述的方法,其特征在于,从第一输出数据中各数据的所有排列顺序中选取目标排列顺序,具体包括:从第一输出数据中各数据的所有排列顺序中选取概率取值大于预置阈值的排列顺序作为目标排列顺序;或者,从第一输出数据中各数据的所有排列顺序中选取概率取值排在前面的预置数量的排列顺序作为目标排列顺序。5.根据权利要求3所述的方法,其特征在于,计算第一输出数据中各数据间的相似度,具体包括:计算第一输出数据中两两数据之间的空间距离,根据所述空间距离得到所述两两数据间的相似度;计算第二输出数据中各数据间的相似度,具体包括:计算第二输出数据中两两数据之间的空间距离,根据所述空间距离得到所述两两数据间的相似度。6.根据权利要求3所述的方法,其特征在于,根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率,具体包括:针对每个排列顺序,将所述排列顺序的顺序信息以及第一输出数据的该排列顺序中所有相邻两个数据间的相似度输入预置的概率计算模型中,得到所述排列顺序的概率;根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率,具体包括:针对每一个目标排列顺序,将所述目标排列顺序的顺序信息以及第二输出数据的该目标排列顺序中所有相邻两个数据间的相似度输入所述概率计算模型中,得到所述目标排列顺序的概率。7.根据权利要求3所述的方法,其特征在于,当所述目标排列顺序为一个时,所述学生网络的目标函数如下:L=-logP(πt|Xs)式中,πt为当前训练样本数据对应的第一输出数据中各数据的目标排列顺序,Xs为当前训练样本数据对应的第二输出数据,P(πt|Xs)为第二输出数据中各数据的目标排列顺序的概率。8.根据权利要求3所述的方法,其特征在于,当所述目标排列顺序为多个时,所述学生网络的目标函数如下:式中,π为一个目标排列顺序,Xs为当前训练样本数据对应的第二输出数据,Xt为当前训练样本数据对应的第一输出数据,P(π|Xs)为当前训练样本数据的第二传输数据中各数据的排列顺序为π的概率,P(π|Xt)为当前训练样本数据的第一传输数据中各数据的排列顺序为π的概率,Q为目标排列顺序的集合。9.根据权利要求3所述的方法,其特征在于,根据所述目标函数的取值调整所述学生网络的权重,具体包括:采用预置的梯度下降优化算法,根据所述目标函数的取值调整所述学生网络的权重。10.根据权利要求3所述的方法,其特征在于,在计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度之前,还包括:通过下采样算法与插值算法对所述第一输出数据和第二输出数据进行处理,使得所述第一输出数据的空间维度与第二输出数据的空间维度一致,且第一输出数据的数量和第二输出数据的数量均与所述当前训练样本数据的数量一致。11.根据权利要求1所述的方法,其特征在于,所述第一特定网络层为教师网络中的一个中间网络层或最后一层网络层;所述第二特定网络层为学生网络的一个中间网络层或最后一层网络层...

【专利技术属性】
技术研发人员:王乃岩陈韫韬
申请(专利权)人:北京图森未来科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1