System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于价值感知和知识摘要的自适应蒸馏方法技术_技高网
当前位置: 首页 > 专利查询>厦门大学专利>正文

基于价值感知和知识摘要的自适应蒸馏方法技术

技术编号:40111144 阅读:5 留言:0更新日期:2024-01-23 19:11
基于价值感知和知识摘要的自适应蒸馏方法,属于图像识别领域。引入价值量化与评价机制,挖掘来自教师的知识在不同训练阶段对学生的不同价值。让学生主动识别信息量大的知识点,逐步浓缩出核心知识集以对知识进行提炼。通过简单的方式应用于当前知识蒸馏方法之中,基于对学生学习能力动态变化的观察提出一种能够有效避免知识冗余的方法,在去除知识冗余,提高学生模型能力上限的同时,还能够得到一个浓缩知识集,以加快蒸馏速度。在加快学生模型训练速度的同时提升学生模型能力,提高蒸馏效率和蒸馏效果。

【技术实现步骤摘要】

本专利技术属于图像识别领域,涉及深度模型轻量化中的知识蒸馏,尤其是涉及一种基于价值感知和知识摘要的自适应蒸馏方法


技术介绍

1、近年来,深度神经网络在工业界和学术界都取得成功,尤其是在计算机视觉方面。深度学习的巨大成功主要归因于其可扩展性,能通过增加模型参数的方式增强对数据特征的提取能力。但是,将这些繁琐的深度模型部署在资源有限设备(例如,智能手机和嵌入式设备)上是一个不小的挑战,这不仅是因为其计算复杂度高,而且深度模型还有庞大的存储需求。为此,在过去的工作中,人们一直在从不同角度探索轻量化深度神经网络的方法。典型的方法包括网络剪枝、参数量化和神经结构搜索等。在所有这些方法中,知识蒸馏的核心方法是将原始繁琐的模型(教师模型)转移其知识以提高其压缩版本(学生模型)的识别能力。由于知识蒸馏具有符合直觉的思路且在很多应用中都取得良好的效果,其在各种视觉任务中的使用愈发广泛。

2、当前知识蒸馏的方法侧重于挖掘知识线索,将来自于教师的所有知识传递给学生。然而,这些方法忽视学生模型在不同学习阶段的变化能力。具体来说,教师模型的所有知识点对于处于早期学习阶段的学生模型来说都是具有足够信息量的。然而,随着学习的进行,不同知识点的价值对学生来说开始有所不同。例如,学的比较好的知识对学生在后期训练阶段的影响相对有限。因此,在现有的知识蒸馏范式中出现知识转移冗余的情况,即学生模型被动地接受来自教师的所有知识。这进一步造成两个严重的问题:(1)训练负担加大。冗余的知识不仅需要额外的存储空间,而且需要更长的训练时间。(2)学生性能变差。这种知识冗余使学生模型不能充分集中于信息量更大的知识,从而削弱学生模型的学习效果。


技术实现思路

1、本专利技术要解决的技术问题为了克服当前知识蒸馏范式中的知识冗余情况,提供一种基于价值感知和知识摘要的自适应蒸馏方法,克服传统知识蒸馏范式存在的教师向学生传递的知识中出现冗余,从而导致学生模型从蒸馏训练中收益降低,性能变差的问题。为应对当前知识蒸馏范式下,由于教师无差别的将全部知识传递给学生,而忽视学生在蒸馏中处于变化状态的学习能力,从而造成知识冗余,导致学生性能降低的挑战,本专利技术希望通过将来自教师的知识从学生的价值角度进行量化和评估,同时学生也需要主动识别信息量较大的知识,以实现学生仅在高价值知识上进行蒸馏的同时得到浓缩知识集并提升性能的效果。

2、本专利技术包括以下步骤:

3、1)在线全局价值记录:设计在线全局价值估计模块用于获得整个训练数据集x的全局统计数据,包括知识点、价值和频次;设教师模型为一个样本数据与教师模型对该数据的输出的组合:被定义为一个知识点;教师提供知识集x={(x,pt(x))∣∣x∈x}并将其转移给学生s;在训练迭代的过程中,考虑样本x的历史统计量,当x在特定的训练轮次中被送入网络时,计算x参与训练的频率,记为f(x),计算该样本价值,即该样本在当前训练轮次的预测熵v(x),一个知识点的全局价值通过移动平均的方式进行更新:

4、

5、2)代价-感知价值评估:由于两个价值相似的知识点,即使参与训练频率相差很大,排名也会是靠近甚至相同的,但对于学生模型来说,价值相近但出现频率更高的知识点更为重要,应当被分配以更高的排名,因此,在排序过程中,使用频率f(x)重新加权v(x):

6、

7、其中,表示加权后的似然概率,用于控制f(x)的权重;

8、通过价值评估方式,随着训练的进行,高价值知识点逐渐被筛选出来,已经“熟记”的样本对于学生模型来说也就不再具有高价值;

9、3)知识分区:将原始知识集k分为k0=0和k1=1,其中,其中y=0表示无价值知识点,y=1表示有价值知识点,k0表示无价值知识集,对于k0中的知识点,选择直接丢弃;k1表示有价值知识集,对于有价值知识集k1,根据加权后的似然概率将其划分为相对较高的集合k1h和相对较低的集合k1l;

10、4)价值自适应知识增强:k1h中的知识点对学生很有价值,采用传统知识蒸馏传递给学生;k1l中的知识点在蒸馏前进行价值自适应知识增强,利用k0中被去除的无价值知识,用非常小的摄动比替代k1l中的知识点,以达到知识增强的目的,所述非常小的摄动比大小可为1-4,定义如下:

11、

12、其中,ordered表示进行降序排列,对样本x的扰动操作(s)定义为:

13、

14、上式用于是使排序靠后的知识点获得更多的扩充效果;而排序靠前的知识点则更多地保持原有的知识内容,经过知识浓缩得到浓缩知识集

15、5)模型蒸馏:设教师模型为一个样本数据与教师模型对该数据的输出的组合:被定义为一个知识点;教师提供一个知识集k={(x,pt(x))∣∣x∈x}并将其转移给学生s;设学生模型为s,将知识价值定义为知识点的预测熵:

16、

17、信息量大的知识点容易得到更大的预测熵,在传统的知识蒸馏范式中,最小化教师输出概率和学生输出概率ps(x)之间的交叉熵损失被用于作为优化目标:

18、

19、上式中的目标是优化学生模型的参数θ,以使教师和学生s之间的负交叉熵最大化:

20、

21、其中,c表示类别空间。

22、引入隐变量y为待估计的知识价值标签,其中y∈{0,1}|k|,是一个二值变量,用于表明对应知识点是否对于学生有价值,传统知识蒸馏优化项被表示为:

23、

24、6)基于期望最大化算法(em算法),知识浓缩和模型蒸馏交替进行,在期望步骤(e步)中,通过以知识点对应的学生模型预测熵的排序似然估计知识价值;在最大化步骤(m步)中,根据在期望步骤中估计的知识价值进行高效知识蒸馏,通过交替执行期望步骤和最大化步骤,学生能力在蒸馏训练过程中得以提升。

25、本专利技术从两个方面入手克服当前知识蒸馏范式中的知识冗余情况:(1)引入价值量化与评价机制,挖掘来自教师的知识在不同训练阶段对学生的不同价值。(2)让学生主动识别信息量大的知识点,逐步浓缩出核心知识集以对知识进行提炼。通过上述方法,本专利技术在去除知识冗余,提高学生模型能力上限的同时,还能够得到一个浓缩知识集,以加快蒸馏速度。通过简单的方式应用于当前知识蒸馏方法之中,提升性能。

本文档来自技高网...

【技术保护点】

1.基于价值感知和知识摘要的自适应蒸馏方法,其特征在于包括以下步骤:

2.如权利要求1所述基于价值感知和知识摘要的自适应蒸馏方法,其特征在于在步骤1)中,设教师模型为一个样本数据与教师模型对该数据的输出的组合:被定义为一个知识点;教师提供知识集K={(x,pT(x))|x∈X}并将其转移给学生S;设学生模型为S,将知识价值定义为知识点的预测熵:

3.如权利要求1所述基于价值感知和知识摘要的自适应蒸馏方法,其特征在于在步骤2)中,所述代价-感知价值排序,由于两个价值相似的知识点,即使参与训练频率相差很大,排名也会是靠近甚至相同的,但对于学生模型来说,价值相近但出现频率更高的知识点更为重要,应当被分配以更高的排名,因此,在排序过程中,使用频率F(x)重新加权V(x):

4.如权利要求1所述基于价值感知和知识摘要的自适应蒸馏方法,其特征在于在步骤3)中,所述知识分区:将原始知识集K分为K0(y=0)和K1(y=1),其中y=0表示无价值知识点,y=1表示有价值知识点,K0表示无价值知识集,对于K0中的知识点,选择直接丢弃;K1表示有价值知识集,对于有价值知识集K1,根据加权后的似然概率将其划分为相对较高的集合K1H和相对较低的集合K1L。

5.如权利要求1所述基于价值感知和知识摘要的自适应蒸馏方法,其特征在于在步骤3)中,所述价值自适应知识增强,K1H中的知识点对学生很有价值,采用传统知识蒸馏传递给学生;K1L中的知识点在蒸馏前进行价值自适应知识增强,利用K0中被去除的无价值知识,用非常小的摄动比∈替代K1L中的知识点,以达到知识增强的目的,定义如下:

6.如权利要求1所述基于价值感知和知识摘要的自适应蒸馏方法,其特征在于在步骤4)中,所述模型蒸馏,在知识蒸馏范式中,最小化教师输出概率和学生输出概率pS(x)之间的交叉熵损失被用于作为优化目标:

...

【技术特征摘要】

1.基于价值感知和知识摘要的自适应蒸馏方法,其特征在于包括以下步骤:

2.如权利要求1所述基于价值感知和知识摘要的自适应蒸馏方法,其特征在于在步骤1)中,设教师模型为一个样本数据与教师模型对该数据的输出的组合:被定义为一个知识点;教师提供知识集k={(x,pt(x))|x∈x}并将其转移给学生s;设学生模型为s,将知识价值定义为知识点的预测熵:

3.如权利要求1所述基于价值感知和知识摘要的自适应蒸馏方法,其特征在于在步骤2)中,所述代价-感知价值排序,由于两个价值相似的知识点,即使参与训练频率相差很大,排名也会是靠近甚至相同的,但对于学生模型来说,价值相近但出现频率更高的知识点更为重要,应当被分配以更高的排名,因此,在排序过程中,使用频率f(x)重新加权v(x):

4.如权利要求1所述基于价值感知和知识摘要的自适应蒸馏方法,其特征在于在步骤3)中,所述知识分区:将原...

【专利技术属性】
技术研发人员:涂晓彤刘奕阳康元勋丁兴号黄悦
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1