一种无数据的自蒸馏方法及装置制造方法及图纸

技术编号：41310700 阅读：4 留言：0更新日期：2024-05-13 14:54

本发明专利技术公开了一种无数据的自蒸馏方法及装置，该方法通过搜集开放世界中存在的数据集，采用类别平衡的融合机制，融合得到一个类别平衡的任意转移集供教师网络和与教师网络部分共享权重的学生网络进行知识蒸馏。解决了常规的生成模型生成构建一个非自然的生成图像集所带来的难训练、时空开销大的问题。同时，消除了由于类别不平衡带来的潜在影响知识蒸馏性能的隐患。另外，通过两个损失函数的结合约束目标教师网络和目标学生网络的训练能保证类别平衡的知识蒸馏。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习，特别是涉及一种基于类别平衡任意转移集的无数据的自蒸馏方法及装置。

技术介绍

1、数据不平衡又称样本比例失衡。对于二分类问题，一般正样本与负样本比例应该差不多。数据分布不平衡是机器学习工作流中的一个重要问题。所谓不平衡的数据集，意思就是两个类中一个类的实例比另一个要高，换句话说，在一个分类数据集之中，所有类的观察值的数量是不一样的。这个问题不仅存在于二进制类数据中，也存在于多类数据中。

2、知识蒸馏也是一种模型压缩方法，参数裁剪、精度转换、神经网络结构搜索这些模型压缩方法会破坏原模型的结构，也就是会损坏原模型从数据中学习到的知识，而知识基榴通过蒸馅的手段保护原模型中学习到的知识，然后将这些知识迁移到压缩模型中，使压缩模型虽然相比原模型体积要小的多，但是也可以学习到相同的知识。

3、在开放世界中，由于数据敏感、隐私以及保密等各种原因，知识蒸馏中用于教师网络训练的转移数据集往往难以访问。现有的诸多解决方案一般采用任意生成的数据作为转移集，这样一定程度上能够解决转移集不可访问的问题，但是生成模型的使用会带来大量的时空开销与模型训练难度。为了解决上述问题，可以利用可访问的公开数据融合构建一个与不可访问原数据不同的“任意转移集”来替代生成模型的使用。

4、然而，开放世界的数据存在着极度的类别不平衡，例如，自然图像中，猫狗的图像一定比大西洋中罕见的深海鱼图像要多得多。如果直接采用不平衡的数据构建任意转移集往往会导致深度网络更倾向于拟合样本多的类别，忽略了样本少的类别，进而导致知识蒸馏

技术实现思路

1、鉴于上述问题，本专利技术提供用于克服上述问题或者至少部分地解决上述问题的一种无数据的自蒸馏方法及装置。

2、本专利技术提供了如下方案：

3、一种无数据的自蒸馏方法，包括：

4、获取开放世界中可访问的公开数据集构建获得初始任意转移集；

5、将所述初始任意转移集输入到目标教师网络中投影得到多个类别数据集；所述目标教师网络为由不可访问的原转移集训练完成的固定权重的教师网络；

6、根据所述类别数据集融合构建类别平衡的目标任意转移集；

7、将所述目标任意转移集分别输入所述目标教师网络和目标学生网络中进行自蒸馏；所述目标学生网络为与所述目标教师网络部分共享权重的学生网络。

8、优选地：所述初始任意转移集与所述原转移集不同。

9、优选地：所述初始任意转移集由随机噪声集、公开的合成集以及自然数据集融合构建而成。

10、优选地：所述初始任意转移集由下式表示：

11、

12、式中：表示任意参与融合构建的图像数据集。

13、优选地：将所述初始任意转移集输入到目标教师网络中投影得到多个类别数据集包括：

14、将所述初始任意转移集的每一个样本输入到所述目标教师网络中，得到每一个样本的伪标签；

15、将每一个样本依据对应的所述伪标签投影至对应的目标类别数据集中，构建获得多个所述类别数据集。

16、优选地：根据所述类别数据集融合构建类别平衡的目标任意转移集包括：

17、确定一个随机抽样的频次超参数，分别在多个所述类别数据集中取出频次超参数个样本融合构建成类别平衡的所述目标任意转移集。

18、优选地：所述目标教师网络以及所述目标学生网络需要优化的损失函数由下式表示：

19、

20、式中：其中，是蒸馏损失函数，是focal损失函数，λ是两个损失项的权重超参数。

21、优选地：所述蒸馏损失函数包括平均平方误差损失函数或者交叉熵损失函数。

22、优选地：所述focal损失函数由下式表示：

23、

24、式中：yi是类别平衡的目标任意转移集第i个样本的类别标签，是学生网络对类别平衡的任意转移集第i个样本类别预测软标签，γ是focal损失函数的可调节超参数。

25、一种无数据的自蒸馏装置,包括：

26、初始任意转移集构建单元，用于获取开放世界中可访问的公开数据集构建获得初始任意转移集；

27、类别数据集获取单元，用于将所述初始任意转移集输入到目标教师网络中投影得到多个类别数据集；所述目标教师网络为由不可访问的原转移集训练完成的固定权重的教师网络；

28、目标任意转移集构建单元，用于根据所述类别数据集融合构建类别平衡的目标任意转移集；

29、自蒸馏单元，用于将所述目标任意转移集分别输入所述目标教师网络和目标学生网络中进行自蒸馏；所述目标学生网络为与所述目标教师网络共享权重的学生网络。

30、根据本专利技术提供的具体实施例，本专利技术公开了以下技术效果：

31、本申请实施例提供的一种无数据的自蒸馏方法及装置，该方法通过搜集开放世界中存在的数据集，采用类别平衡的融合机制，融合得到一个类别平衡的任意转移集供教师网络和与教师网络部分共享权重的学生网络进行知识蒸馏。解决了常规的生成模型生成构建一个非自然的生成图像集所带来的难训练、时空开销大的问题。同时，消除了由于类别不平衡带来的潜在影响知识蒸馏性能的隐患。另外，通过两个损失函数的结合约束目标教师网络和目标学生网络的训练能保证类别平衡的知识蒸馏。

32、当然，实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。

本文档来自技高网...

【技术保护点】

1.一种无数据的自蒸馏方法,其特征在于，包括：

2.根据权利要求1所述的无数据的自蒸馏方法,其特征在于，所述初始任意转移集与所述原转移集不同。

3.根据权利要求2所述的无数据的自蒸馏方法,其特征在于，所述初始任意转移集由随机噪声集、公开的合成集以及自然数据集融合构建而成。

4.根据权利要求3所述的无数据的自蒸馏方法,其特征在于，所述初始任意转移集由下式表示：

5.根据权利要求1所述的无数据的自蒸馏方法,其特征在于，将所述初始任意转移集输入到目标教师网络中投影得到多个类别数据集包括：

6.根据权利要求5所述的无数据的自蒸馏方法,其特征在于，根据所述类别数据集融合构建类别平衡的目标任意转移集包括：

7.根据权利要求1所述的无数据的自蒸馏方法,其特征在于，所述目标教师网络以及所述目标学生网络需要优化的损失函数由下式表示：

8.根据权利要求7所述的无数据的自蒸馏方法,其特征在于，所述蒸馏损失函数包括平均平方误差损失函数或者交叉熵损失函数。

9.根据权利要求7所述的无数据的自蒸馏方法,其特征在于

10.一种无数据的自蒸馏装置,其特征在于，包括：

...

【技术特征摘要】

1.一种无数据的自蒸馏方法,其特征在于，包括：

2.根据权利要求1所述的无数据的自蒸馏方法,其特征在于，所述初始任意转移集与所述原转移集不同。

3.根据权利要求2所述的无数据的自蒸馏方法,其特征在于，所述初始任意转移集由随机噪声集、公开的合成集以及自然数据集融合构建而成。

4.根据权利要求3所述的无数据的自蒸馏方法,其特征在于，所述初始任意转移集由下式表示：

5.根据权利要求1所述的无数据的自蒸馏方法,其特征在于，将所述初始任意转移集输入到目标教师网络中投影得到多个类别数据集包括：

【专利技术属性】
技术研发人员：戴健，祝本明，任珍文，
申请(专利权)人：中国兵器装备集团自动化研究所有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人