【技术实现步骤摘要】
一种神经网络训练方法、装置、计算设备及存储介质
[0001]本申请涉及人工智能
,尤其涉及神经网络训练方法、装置、计算设备及存储介质。
技术介绍
[0002]知识蒸馏是模型压缩的一种常用的方法,通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度。
技术实现思路
[0003]本申请提供了一种神经网络训练方法、网络搜索方法、数据识别方法、神经网络训练装置、网络搜索装置、数据识别装置、计算设备、以及存储介质。
[0004]根据本申请的一方面,提供了一种神经网络训练方法,包括:
[0005]获取第一神经网络模型和第二神经网络模型;
[0006]根据该第一神经网络模型和该第二神经网络模型,对超网络在超网络的子网络维度以及子网络的网络层维度进行双网知识蒸馏的联合训练,得到目标神经网络;其中,该目标神经网络为已训练好的超网络。
[0007]根据本申请的另一方面,提供了一种网络搜索方法,包括:
[0008]发起搜索请求,该搜索请求用于表征在算力约束条件下搜索目标神经网络的操作请求,其中,该目标神经网络为采用上述任一项得到的已训练好的超网络;
[0009]响应该搜索请求,得到该目标神经网络中满足该算力约束条件的子网络。
[0010]根据本申请的一方面,提供了一种数据识别方法,包括:
[0011]将数据输入目标神经网络,其中,该目标神经网络为采用上述任一项得到的已训练好的超网络;
[0012] ...
【技术保护点】
【技术特征摘要】
1.一种神经网络训练方法,其特征在于,所述方法包括:获取第一神经网络模型和第二神经网络模型;根据所述第一神经网络模型和所述第二神经网络模型,对超网络在超网络的子网络维度以及子网络的网络层维度进行双网知识蒸馏的联合训练,得到目标神经网络;其中,所述目标神经网络为已训练好的超网络。2.根据权利要求1所述的方法,其特征在于,所述第一神经网络模型为静态网络,所述第二神经网络模型为包括混合计算单元的动态网络。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一神经网络模型和所述第二神经网络模型,对超网络在超网络的子网络维度进行双网知识蒸馏的联合训练,得到目标神经网络,包括:在所述第一神经网络模型的前向传播中得到第一损失函数;在所述第二神经网络模型的前向传播中得到第二损失函数;根据所述第一损失函数和所述第二损失函数,得到用于所述双网知识蒸馏的联合训练对应的第三损失函数;根据所述第三损失函数的反向传播,对所述超网络在超网络的所述子网络维度以及所述子网络的网络层维度进行双网知识蒸馏的联合训练,得到所述目标神经网络。4.根据权利要求3所述的方法,其特征在于,所述目标神经网络中的每个子网络,为具备与所述目标神经网络同样处理性能的子网络。5.根据权利要求2所述的方法,其特征在于,所述混合计算单元为包括至少两个算子层的混合单元;其中,将特征数据输入所述混合计算单元,在所述混合计算单元中通过所述至少两个算子层进行融合处理,得到融合处理结果,将所述融合处理结果作为所述混合计算单元的输出。6.根据权利要求5所述的方法,其特征在于,所述至少两个算子层包括:采用不同卷积核或不同卷积运算方式的卷积层。7.一种网络搜索方法,其特征在于,包括:发起搜索请求,所述搜索请求用于表征在算力约束条件下搜索目标神经网络的操作请求,其中,所述目标神经网络为采用权利要求1至6中任一项得到的已训练好的超网络;响应所述搜索请求,得到所述目标神经网络中满足所述算力约束条件的子网络。8.根据权利要求7所述的方法,其特征在于,还包括:获取所述子网络对应的子网络配置信息;根据所述子网络配置信息,为不同的硬件处理平台适配所述子网络。9.根据权利要求8所述的方法,其特征在于,所述子网络配置信息包括:子网络结构及子网络权重;其中,所述子网络结构包括:构成所述子网络的每个网络层的通道数量、卷积核大小、网络深度中的至少一种。10.一种数据识别方法,其特征在于,所述方法包括:将数据输入目标神经网络,其中,所...
【专利技术属性】
技术研发人员:赵娟萍,
申请(专利权)人:哲库科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。