一种神经网络训练方法、装置、计算设备及存储介质制造方法及图纸

技术编号:37303265 阅读:22 留言:0更新日期:2023-04-21 22:48
本申请涉及一种神经网络训练方法、装置、计算设备及存储介质,其中,所述方法包括:获取第一神经网络模型和第二神经网络模型;根据该第一神经网络模型和该第二神经网络模型,对超网络在超网络的子网络维度以及子网络的网络层维度进行双网知识蒸馏的联合训练,得到目标神经网络;其中,该目标神经网络为已训练好的超网络。采用本申请,通过双网络联合知识蒸馏提高了网络性能。提高了网络性能。提高了网络性能。

【技术实现步骤摘要】
一种神经网络训练方法、装置、计算设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及神经网络训练方法、装置、计算设备及存储介质。

技术介绍

[0002]知识蒸馏是模型压缩的一种常用的方法,通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度。

技术实现思路

[0003]本申请提供了一种神经网络训练方法、网络搜索方法、数据识别方法、神经网络训练装置、网络搜索装置、数据识别装置、计算设备、以及存储介质。
[0004]根据本申请的一方面,提供了一种神经网络训练方法,包括:
[0005]获取第一神经网络模型和第二神经网络模型;
[0006]根据该第一神经网络模型和该第二神经网络模型,对超网络在超网络的子网络维度以及子网络的网络层维度进行双网知识蒸馏的联合训练,得到目标神经网络;其中,该目标神经网络为已训练好的超网络。
[0007]根据本申请的另一方面,提供了一种网络搜索方法,包括:
[0008]发起搜索请求,该搜索请求用于表征在算力约束条件下搜索目标神经网络的操作请求,其中,该目标神经网络为采用上述任一项得到的已训练好的超网络;
[0009]响应该搜索请求,得到该目标神经网络中满足该算力约束条件的子网络。
[0010]根据本申请的一方面,提供了一种数据识别方法,包括:
[0011]将数据输入目标神经网络,其中,该目标神经网络为采用上述任一项得到的已训练好的超网络;
[0012]根据该目标神经网络对该数据进行识别,得到目标数据;
[0013]其中,该数据包括:图像数据、视频数据、文本数据、语音数据中的至少一种。
[0014]根据本申请的一方面,提供了一种数据识别方法,包括:
[0015]将数据输入目标神经网络,其中,该目标神经网络为采用上述任一项得到的已训练好的超网络;
[0016]确定该目标神经网络中满足算力约束条件的子网络;
[0017]根据该子网络对该数据进行识别,得到目标数据;
[0018]其中,该数据包括:图像数据、视频数据、文本数据、语音数据中的至少一种。
[0019]根据本申请的另一方面,提供了一种神经网络训练装置,包括:
[0020]获取单元,用于获取第一神经网络模型和第二神经网络模型;
[0021]联合训练单元,用于根据该第一神经网络模型和该第二神经网络模型,对超网络在超网络的子网络维度以及子网络的网络层维度进行双网知识蒸馏的联合训练,得到目标神经网络;其中,该目标神经网络为已训练好的超网络。
[0022]根据本申请的另一方面,提供了一种网络搜索装置,包括:
[0023]搜索单元,用于发起搜索请求,该搜索请求用于表征在算力约束条件下搜索目标神经网络的操作请求,其中,该目标神经网络为采用上述任一项得到的已训练好的超网络;
[0024]响应单元,用于响应该搜索请求,得到该目标神经网络中满足该算力约束条件的子网络。
[0025]根据本申请的另一方面,提供了一种数据识别装置,包括:
[0026]第一输入单元,用于将数据输入目标神经网络,其中,该目标神经网络为采用上述任一项得到的已训练好的超网络;
[0027]第一识别单元,用于根据该目标神经网络对该数据进行识别,得到目标数据;
[0028]其中,该数据包括:图像数据、视频数据、文本数据、语音数据中的至少一种。
[0029]根据本申请的另一方面,提供了一种数据识别装置,包括:
[0030]第二输入单元,用于将数据输入目标神经网络,其中,该目标神经网络为采用上述任一项得到的已训练好的超网络;
[0031]确定单元,用于确定该目标神经网络中满足算力约束条件的子网络;
[0032]第二识别单元,用于根据该子网络对该数据进行识别,得到目标数据;
[0033]其中,该数据包括:图像数据、视频数据、文本数据、语音数据中的至少一种。
[0034]根据本申请的另一方面,提供了一种计算设备,包括:处理器,用于从存储器中调用并运行计算机程序,使得该计算设备执行本申请任意一实施例所提供的方法。
[0035]根据本申请的另一方面,提供了一种计算机可读存储介质,用于存储计算机程序,当该计算机程序被设备运行时使得设备执行本申请任意一实施例。
[0036]采用本申请,可以获取第一神经网络模型和第二神经网络模型,以根据该第一神经网络模型和该第二神经网络模型,对超网络在超网络的子网络维度以及子网络的网络层维度进行双网知识蒸馏的联合训练,从而得到目标神经网络;其中,该目标神经网络为已训练好的超网络。由于是通过双网络联合的知识蒸馏,兼具两个网络的性能优势,因此,提高了网络性能。
[0037]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0038]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0039]图1

图3是相关技术中Once

For

All示例的示意图;
[0040]图4是应用部署的Once

For

All进行搜索的示意图;
[0041]图5是相关技术中Once

For

All的超网训练示意图;
[0042]图6是根据本申请实施例的一分布式集群处理场景的示意图;
[0043]图7是根据本申请实施例的神经网络训练方法的流程示意图;
[0044]图8是根据本申请实施例的网络搜索方法的流程示意图;
[0045]图9是根据本申请实施例的数据识别方法的流程示意图;
[0046]图10是根据本申请实施例的数据识别方法的流程示意图;
[0047]图11是根据本申请实施例的应用示例中双网联合的知识蒸馏示意图;
[0048]图12是根据本申请实施例的应用示例中混合计算单元的组成示意图;
[0049]图13

图14是根据本申请实施例的应用示例中子网络的组成示意图;
[0050]图15是根据本申请实施例的神经网络训练装置的组成结构示意图;
[0051]图16是根据本申请实施例的网络搜索装置的组成结构示意图;
[0052]图17是根据本申请实施例的数据识别装置的组成结构示意图;
[0053]图18是根据本申请实施例的数据识别装置的组成结构示意图;
[0054]图19是用来实现本申请实施例的神经网络训练方法/网络搜索方法/数据识别方法的电子设备的框图。
具体实施方式
[0055]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络训练方法,其特征在于,所述方法包括:获取第一神经网络模型和第二神经网络模型;根据所述第一神经网络模型和所述第二神经网络模型,对超网络在超网络的子网络维度以及子网络的网络层维度进行双网知识蒸馏的联合训练,得到目标神经网络;其中,所述目标神经网络为已训练好的超网络。2.根据权利要求1所述的方法,其特征在于,所述第一神经网络模型为静态网络,所述第二神经网络模型为包括混合计算单元的动态网络。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一神经网络模型和所述第二神经网络模型,对超网络在超网络的子网络维度进行双网知识蒸馏的联合训练,得到目标神经网络,包括:在所述第一神经网络模型的前向传播中得到第一损失函数;在所述第二神经网络模型的前向传播中得到第二损失函数;根据所述第一损失函数和所述第二损失函数,得到用于所述双网知识蒸馏的联合训练对应的第三损失函数;根据所述第三损失函数的反向传播,对所述超网络在超网络的所述子网络维度以及所述子网络的网络层维度进行双网知识蒸馏的联合训练,得到所述目标神经网络。4.根据权利要求3所述的方法,其特征在于,所述目标神经网络中的每个子网络,为具备与所述目标神经网络同样处理性能的子网络。5.根据权利要求2所述的方法,其特征在于,所述混合计算单元为包括至少两个算子层的混合单元;其中,将特征数据输入所述混合计算单元,在所述混合计算单元中通过所述至少两个算子层进行融合处理,得到融合处理结果,将所述融合处理结果作为所述混合计算单元的输出。6.根据权利要求5所述的方法,其特征在于,所述至少两个算子层包括:采用不同卷积核或不同卷积运算方式的卷积层。7.一种网络搜索方法,其特征在于,包括:发起搜索请求,所述搜索请求用于表征在算力约束条件下搜索目标神经网络的操作请求,其中,所述目标神经网络为采用权利要求1至6中任一项得到的已训练好的超网络;响应所述搜索请求,得到所述目标神经网络中满足所述算力约束条件的子网络。8.根据权利要求7所述的方法,其特征在于,还包括:获取所述子网络对应的子网络配置信息;根据所述子网络配置信息,为不同的硬件处理平台适配所述子网络。9.根据权利要求8所述的方法,其特征在于,所述子网络配置信息包括:子网络结构及子网络权重;其中,所述子网络结构包括:构成所述子网络的每个网络层的通道数量、卷积核大小、网络深度中的至少一种。10.一种数据识别方法,其特征在于,所述方法包括:将数据输入目标神经网络,其中,所...

【专利技术属性】
技术研发人员:赵娟萍
申请(专利权)人:哲库科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1