神经网络模型迁移方法和系统、电子设备、程序和介质技术方案

技术编号:18351323 阅读:33 留言:0更新日期:2018-07-02 01:09
本发明专利技术实施例公开了一种神经网络模型迁移方法和系统、电子设备、程序和介质,其中,方法包括:分别向训练好的第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,第二神经网络模型小于第一神经网络模型的大小;获取第一差异和第二差异,第一差异为第一神经网络模型的特征层提取的特征与第二神经网络模型的特征层提取的特征之间的差异,第二差异为第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的差异;根据第一差异和第二差异对第二神经网络模型进行网络训练。本发明专利技术实施例实现了基于大神经网络模型对小神经网络模型在输出特征和分类能力上的共同监督。

【技术实现步骤摘要】
神经网络模型迁移方法和系统、电子设备、程序和介质
本专利技术涉及数据处理技术,尤其是一神经网络模型迁移方法和系统、电子设备、程序和介质。
技术介绍
在当今的图像识别任务中的一个普遍共识是在样本数据足够、训练方法恰当、网络模型设计科学的条件下,所使用的网络模型越大、越复杂,往往能够得到越精确的识别结果。虽然网络模型越大、越复杂,识别结果越精确可靠,但是,由于体量庞大、计算复杂的问题,从而使得其在实际应用中会占用大量的存储和计算资源。
技术实现思路
本专利技术实施例提供一种用于进行神经网络模型迁移的技术方案。根据本专利技术实施例的一个方面,提供一种神经网络模型迁移方法,包括:分别向训练好的第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,所述第二神经网络模型的大小小于所述第一神经网络模型的大小;获取第一差异和第二差异,其中,所述第一差异为第一神经网络模型的特征层提取的特征与第二神经网络模型的特征层提取的特征之间的差异,所述第二差异为第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的差异;根据所述第一差异和所述第二差异对所述第二神经网络模型进行网络训练,直至满足预设训练完成条件。可选地,在本专利技术上述各方法实施例中,第二神经网络模型的大小小于第一神经网络模型的大小包括:第二神经网络模型的参数量小于所述第一神经网络模型的参数量;和/或第二神经网络模型的网络层数小于所述第一神经网络模型的网络层数。可选地,在本专利技术上述各方法实施例中,所述第一差异为所述第一神经网络模型的最后一特征层提取的特征与所述第二神经网络模型的最后一特征层提取的特征之间的差异。可选地,在本专利技术上述各方法实施例中,获取所述第一差异,包括:获取所述第一神经网络模型的最后一特征层的特征,以及获取所述第二神经网络模型的最后一特征层提取的特征;通过迁移代价函数层,获取所述第一神经网络模型的最后一特征层提取的特征与所述第二神经网络模型的最后一特征层提取的特征之间的迁移代价函数值,所述第一差异为所述迁移代价函数值。可选地,在本专利技术上述各方法实施例中,所述第一神经网络模型的最后一特征层和所述第二神经网络模型的最后一特征层的维度相同。可选地,在本专利技术上述各方法实施例中,所述第一神经网络模型的最后一特征层和所述第二神经网络模型的最后一特征层的维度不相同;通过迁移代价函数层,获取所述第一神经网络模型的最后一特征层提取的特征与所述第二神经网络模型的最后一特征层提取的特征之间的迁移代价函数值,包括:通过辅助全连接层将所述第二神经网络模型的最后一特征层提取的特征变换为与所述第一神经网络模型的最后一特征层提取的特征维度一致的特征;通过迁移代价函数层,获取变换得到的特征与所述第一神经网络模型的最后一特征层提取的特征之间的迁移代价函数值。可选地,在本专利技术上述各方法实施例中,获取所述第二差异,包括:获取第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的第二差异;以及确定所述第二神经网络模型的分类层输出的分类结果与所述待处理对象的标注分类结果之间的第三差异;以所述第二差异和所述第三差异作为所述第二神经网络模型的分类代价函数值。可选地,在本专利技术上述各方法实施例中,根据所述第一差异和所述第二差异对所述第二神经网络模型进行网络训练,包括:根据所述分类代价函数值调整所述第二神经网络模型中所述分类层及所述分类层以前各网络层的权重参数值,以及根据所述迁移代价函数值调整所述第二神经网络模型中最后一特征层及所述最后一特征层之前各网络层的权重参数值。可选地,在本专利技术上述各方法实施例中,满足预设训练完成条件,包括以下任意一项或多项:所述第一神经网络模型的特征层提取的特征与所述第二神经网络模型的特征层提取的特征之间的第一差异小于第一预设阈值;所述第一神经网络模型的分类层输出的分类结果与所述第二神经网络模型的分类层输出的分类结果之间的第二差异小于第二预设阈值;所述第二神经网络模型的训练次数达到预设次数。根据本专利技术实施例的另一个方面,提供一种神经网络模型迁移系统,包括:训练好的第一神经网络模型和一待训练的第二神经网络模型;其中,所述第二神经网络模型的大小小于所述第一神经网络模型的大小;所述第一神经网络模型包括至少一个特征层、和分类层;所述第二神经网络模型包括至少一个特征层、和分类层;所述第一神经网络模型,用于接收待处理对象;并输出所述第一神经网络模型的特征层提取的特征和分类层输出的分类结果;所述第二神经网络模型,用于接收所述待处理对象;并输出所述第二神经网络模型的特征层提取的特征和分类层输出的分类结果;获取模块,用于获取第一差异和第二差异,其中,所述第一差异为第一神经网络模型的特征层提取的特征与第二神经网络模型的特征层提取的特征之间的差异,所述第二差异为第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的差异;训练模块,用于根据所述第一差异和所述第二差异对所述第二神经网络模型进行网络训练,直至满足预设训练完成条件。可选地,在本专利技术上述各系统实施例中,第二神经网络模型的大小小于第一神经网络模型的大小包括:第二神经网络模型的参数量小于所述第一神经网络模型的参数量;和/或第二神经网络模型的网络层数小于所述第一神经网络模型的网络层数。可选地,在本专利技术上述各系统实施例中,所述第一差异为所述第一神经网络模型的最后一特征层提取的特征与所述第二神经网络模型的最后一特征层提取的特征之间的差异。可选地,在本专利技术上述各系统实施例中,所述获取模块包括:第一获取单元,用于获取所述第一神经网络模型的最后一特征层的特征,以及获取所述第二神经网络模型的最后一特征层提取的特征;迁移代价函数层,用于获取所述第一神经网络模型的最后一特征层提取的特征与所述第二神经网络模型的最后一特征层提取的特征之间的迁移代价函数值,所述第一差异为所述迁移代价函数值。可选地,在本专利技术上述各系统实施例中,所述第一神经网络模型的最后一特征层和所述第二神经网络模型的最后一特征层的维度相同。可选地,在本专利技术上述各系统实施例中,所述第一神经网络模型的最后一特征层和所述第二神经网络模型的最后一特征层的维度不相同;所述系统还包括:辅助全连接层,用于将所述第二神经网络模型的最后一特征层提取的特征变换为与所述第一神经网络模型的最后一特征层提取的特征维度一致的特征;所述迁移代价函数层,具体用于获取变换得到的特征与所述第一神经网络模型的最后一特征层提取的特征之间的迁移代价函数值。可选地,在本专利技术上述各系统实施例中,所述获取模块还包括:第二获取单元,用于获取第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的第二差异;以及确定所述第二神经网络模型的分类层输出的分类结果与所述待处理对象的标注分类结果之间的第三差异;第三获取单元,用于以所述第二差异和所述第三差异作为所述第二神经网络模型的分类代价函数值。可选地,在本专利技术上述各系统实施例中,所述训练模块具体用于:根据所述分类代价函数值调整所述第二神经网络模型中所述分类层及所述分类层以前各网络层的权重参数值,以及根据所述迁移代价函数值调整所述第二神经网络模型中最后一特征层及所述最后一特征层之前各网本文档来自技高网...
神经网络模型迁移方法和系统、电子设备、程序和介质

【技术保护点】
1.一种神经网络模型迁移方法,其特征在于,包括:分别向训练好的第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,所述第二神经网络模型的大小小于所述第一神经网络模型的大小;获取第一差异和第二差异,其中,所述第一差异为第一神经网络模型的特征层提取的特征与第二神经网络模型的特征层提取的特征之间的差异,所述第二差异为第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的差异;根据所述第一差异和所述第二差异对所述第二神经网络模型进行网络训练,直至满足预设训练完成条件。

【技术特征摘要】
1.一种神经网络模型迁移方法,其特征在于,包括:分别向训练好的第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,所述第二神经网络模型的大小小于所述第一神经网络模型的大小;获取第一差异和第二差异,其中,所述第一差异为第一神经网络模型的特征层提取的特征与第二神经网络模型的特征层提取的特征之间的差异,所述第二差异为第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的差异;根据所述第一差异和所述第二差异对所述第二神经网络模型进行网络训练,直至满足预设训练完成条件。2.根据权利要求1所述的方法,其特征在于,第二神经网络模型的大小小于第一神经网络模型的大小包括:第二神经网络模型的参数量小于所述第一神经网络模型的参数量;和/或第二神经网络模型的网络层数小于所述第一神经网络模型的网络层数。3.根据权利要求1或2所述的方法,其特征在于,所述第一差异为所述第一神经网络模型的最后一特征层提取的特征与所述第二神经网络模型的最后一特征层提取的特征之间的差异。4.根据权利要求3所述的方法,其特征在于,获取所述第一差异,包括:获取所述第一神经网络模型的最后一特征层的特征,以及获取所述第二神经网络模型的最后一特征层提取的特征;通过迁移代价函数层,获取所述第一神经网络模型的最后一特征层提取的特征与所述第二神经网络模型的最后一特征层提取的特征之间的迁移代价函数值,所述第一差异为所述迁移代价函数值。5.一种神经网络模型迁移系统,其特征在于,包括:训练好的第一神经网络模型和一待训练的第二神经网络模型;其中,所述第二神经网络模型的大小小于所述第一神经网络模型的大小;所述第一神经网络模...

【专利技术属性】
技术研发人员:邵婧闫俊杰
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1