System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 异构知识蒸馏中的辅助神经网络模型训练方法及装置制造方法及图纸_技高网

异构知识蒸馏中的辅助神经网络模型训练方法及装置制造方法及图纸

技术编号:40494809 阅读:7 留言:0更新日期:2024-02-26 19:23
本申请提供了异构知识蒸馏中的辅助神经网络模型训练方法及装置,该方法将辅助神经网络模型的结构进行参数化,再通过NAS技术搜索最优的辅助神经网络模型的结构,然后以学生神经网络模型学习的结果为导向的损失函数自动更新辅助神经网络模型的结构参数,最终找到最优的辅助神经网络模型结构。该方法可以在不使用人类专家知识的情况下自动寻找对学生神经网络模型性能减少最优的辅助神经网络模型。利用该方法可以找到一个最优的辅助神经网络模型,提升异构知识蒸馏的性能,使得性能良好但占内存太大的教师神经网络模型,能在最大限度减少知识损耗的情况下把知识转移到尺寸较小的学生神经网络模型上,以便将神经网络模型部署到移动设备上使用。

【技术实现步骤摘要】

本专利技术属于神经网络,尤其涉及异构知识蒸馏中的辅助神经网络模型训练方法及装置


技术介绍

1、知识蒸馏是一种将大且复杂的神经网络模型(可称为教师神经网络模型)的知识(神经网络模型通过对数据的训练所得到的对数据预测的能力)转移到小且简单的神经网络模型(可称为学生神经网络模型)中的模型压缩方法,能让一个小而简单的神经网络模型的预测性能在经过蒸馏之后,得到很大提升。但这种原始知识蒸馏的方法仅适用于教师模型与学生模型属于同一种类型的神经网络模型且尺寸差距还不是特别大的情况。

2、为了解决教师与学生模型尺寸相差过大而导致的学生模型性能下降的情况,助教知识蒸馏(teacherassistant knowledge distillation,takd)提出了在教师神经网络模型(简称为教师模型)与学生神经网络模型(简称为学生模型)之间增加一个尺寸介于两者之间的辅助神经网络模型,将单步蒸馏变为多步蒸馏,减少了相同结构的师生模型尺寸差距过大造成的知识损耗。但是目前的助教知识蒸馏方法无法解决异构师生模型(即不同网络结构的教师模型与学生模型)在尺寸差距过大的情况下导致的知识损耗问题。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种异构知识蒸馏中的辅助神经网络模型训练方法及装置,以解决上述的至少部分问题,其提供的技术方案如下:

2、第一方面,本申请提供了一种异构知识蒸馏中的辅助神经网络模型训练方法,包括:

3、分别构建教师神经网络模型、学生神经网络模型和辅助神经网络模型,模型的输出由模型权重ω,结构参数a,以及第i个输入x(i)决定;

4、从教师神经网络模型蒸馏知识,并通过减少辅助神经网络模型的蒸馏损失更新辅助神经网络模型的权重ωa;

5、从辅助神经网络模型蒸馏知识,并通过减少学生神经网络模型的蒸馏损失更新学生神经网络模型的权重参数ωs;

6、通过梯度下降最小化学生神经网络模型的损失函数更新辅助神经网络模型的结构参数aa。

7、可选地,所述分别构建教师神经网络模型、学生神经网络模型和辅助神经网络模型对应的函数,包括:

8、所述教师神经网络模型表示为其中,ft是教师神经网络模型的函数,ωt表示教师神经网络模型的模型权重,at是教师神经网络模型的结构参数;

9、所述学生神经网络模型表示为其中,fs是学生神经网络模型的函数,ωs表示学生神经网络模型的模型权重,as是学生神经网络模型的结构参数;

10、所述辅助神经网络模型表示为其中,fa是辅助神经网络模型的函数,ωa表示辅助神经网络模型的模型权重,aa是辅助神经网络模型的结构参数。

11、可选地,所述通过减少辅助神经网络模型的蒸馏损失更新辅助神经网络模型的权重ωa为:通过公式更新ωa。

12、可选地,所述通过减少学生神经网络模型的蒸馏损失更新学生神经网络模型的权重参数ωs为:

13、通过更新ωs。

14、可选地,通过梯度下降最小化学生神经网络模型的损失函数更新辅助神经网络模型的结构参数aa,包括:

15、通过梯度下降法使得损失函数满足来更新aa。

16、可选地,还包括:

17、训练过程的目标函数如下:

18、

19、

20、

21、其中,ω*表示已经训练好的神经网络模型的权重参数。

22、第二方面,本申请还提供了一种异构知识蒸馏中的辅助神经网络模型训练装置,包括:

23、模型函数构建模块,用于分别构建教师神经网络模型、学生神经网络模型和辅助神经网络模型,模型的输出由模型权重ω,结构参数a,以及第i个输入x(i)决定;

24、辅助模型权重优化模块,用于从教师神经网络模型蒸馏知识,并通过减少教辅助神经网络模型的蒸馏损失更新辅助神经网络模型的权重ωa;

25、学生模型权重优化模块,用于从辅助神经网络模型蒸馏知识,并通过减少学生神经网络模型的蒸馏损失更新学生神经网络模型的权重参数ωs;

26、辅助模型结构参数更新模块,用于通过梯度下降最小化学生神经网络模型的损失函数,更新辅助神经网络模型的结构参数aa。

27、可选地,所述辅助模型权重优化模块具体用于:通过公式更新ωa;

28、所述学生模型权重优化模块具体用于:通过更新ωs。

29、可选地,还包括:

30、训练过程的目标函数如下:

31、

32、

33、

34、其中,ω*表示已经训练好的神经网络模型的权重参数。

35、第三方面,本申请还提供了一种计算设备,其特征在于,包括:处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现第一方面任一项所述的异构知识蒸馏中的辅助神经网络模型训练方法。

36、本申请实施例提供了一种异构知识蒸馏中的辅助神经网络模型训练方法,将辅助神经网络模型的结构进行参数化,再通过nas技术搜索最优的辅助神经网络模型的结构,然后以学生神经网络模型学习的结果为导向的损失函数自动更新辅助神经网络模型的结构参数,最终找到最优的辅助神经网络模型结构。该方法可以在不使用人类专家知识的情况下自动寻找对学生神经网络模型性能减少最优的辅助神经网络模型。利用该方法可以找到一个最优的辅助神经网络模型,提升异构知识蒸馏的性能,使得性能良好但占内存太大的教师神经网络模型,能在最大限度减少知识损耗的情况下把知识转移到尺寸较小的学生神经网络模型上,以便将神经网络模型部署到移动设备上使用。

本文档来自技高网...

【技术保护点】

1.一种异构知识蒸馏中的辅助神经网络模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分别构建教师神经网络模型、学生神经网络模型和辅助神经网络模型对应的函数,包括:

3.根据权利要求1所述的方法,其特征在于,所述通过减少辅助神经网络模型的蒸馏损失更新辅助神经网络模型的权重ωA为:通过公式更新ωA。

4.根据权利要求1所述的方法,其特征在于,所述通过减少学生神经网络模型的蒸馏损失更新学生神经网络模型的权重参数ωs为:

5.根据权利要求1所述的方法,其特征在于,通过梯度下降最小化学生神经网络模型的损失函数更新辅助神经网络模型的结构参数aA,包括:

6.根据权利要求2-5任一项所述的方法,其特征在于,还包括:

7.一种异构知识蒸馏中的辅助神经网络模型训练装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,所述辅助模型权重优化模块具体用于:通过公式更新ωA;

9.根据权利要求7或8所述的装置,其特征在于,还包括:

10.一种计算设备,其特征在于,包括:处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现权利要求1-6任一项所述的异构知识蒸馏中的辅助神经网络模型训练方法。

...

【技术特征摘要】

1.一种异构知识蒸馏中的辅助神经网络模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分别构建教师神经网络模型、学生神经网络模型和辅助神经网络模型对应的函数,包括:

3.根据权利要求1所述的方法,其特征在于,所述通过减少辅助神经网络模型的蒸馏损失更新辅助神经网络模型的权重ωa为:通过公式更新ωa。

4.根据权利要求1所述的方法,其特征在于,所述通过减少学生神经网络模型的蒸馏损失更新学生神经网络模型的权重参数ωs为:

5.根据权利要求1所述的方法,其特征在于,通过梯度下降最小化学生神经网络模型的损...

【专利技术属性】
技术研发人员:杨丹
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1