一种模型训练方法、装置及相关设备制造方法及图纸

技术编号：40107626 阅读：8 留言：0更新日期：2024-01-23 18:40

本申请提供了一种模型训练方法、装置及相关设备，该方法包括以下步骤：获取第一模型，所述第一模型是使用第一样本集对第一神经网络进行训练后获得的，获取第二样本集，对所述第二样本集的样本分布进行校正，获得第三样本集，其中，所述第三样本集的样本分布的有偏程度低于所述第二样本集的样本分布的有偏程度，使用所述第三样本集对所述第一模型进行训练，获得训练好的第二模型，该第三样本集中的样本类型不仅包括新增的样本类型，还包括第一样本集中的旧样本类型，从而解决模型训练时的旧知识遗忘问题，同时，该第三样本集的样本分布不再是有偏分布，从而解决模型训练时的过拟合问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能领域，尤其涉及一种模型训练方法、装置及相关设备。

技术介绍

1、随着科学技术的不断发展，人工智能(artificial intelligence,ai)模型在视觉、文字、语音和搜索等领域取得了先进的成果。但是，ai模型的成功很大程度上依赖于大量的训练样本，训练样本的获取和标注都需要消耗大量的人力、物力和时间，并且一些应用场景也有着样本或者样本标注难获取的问题。而小样本学习(few-shot class-incremental learning,fscil)可以先使用少量旧类别样本对模型进行训练，然后再使用少量的新类别样本持续对模型进行训练，从而实现通过少量样本完成深度学习模型训练的目的，被广泛应用于上述样本或者样本标注难获取、成本高的应用场景中。

2、但是，小样本学习过程中，模型在持续学习新知识的过程中，由于学习新知识时使用的样本数量太少，样本分布很容易出现不均匀的问题，样本分布通常是一个有偏分布，导致模型基于有偏分布学习到的新知识也是有偏的，这样训练好的模型很容易出现过拟合的问题，导致小样本学习的模型训练效果不佳。

技术实现思路

1、本申请提供了一种模型训练方法、装置及相关设备，用于解决小样本学习新知识的过程中，由于训练样本为有偏分布导致模型容易出现过拟合的问题。

2、第一方面，提供了一种模型训练方法，该方法包括以下步骤：获取第一模型，第一模型是使用第一样本集对第一神经网络进行训练后获得的，获取第二样本集，对第二样本集的样本分布进行校正，

3、实施第一方面描述的方法，在增量学习阶段下所使用的训练样本的样本分布经过了校正，将样本分布从有偏分布校正为更接近真实场景的真实分布，从而解决小样本学习对于新知识的过拟合问题，提高模型训练的效果。

4、在一可能的实现方式中，第二样本集包括第一类别的样本和第二类别的样本，第一样本集包括第一类别的样本，第一样本集不包括第二类别的样本。

5、具体实现中，第一样本集和第二样本集均为有标签样本，包括输入样本和输入样本的标签，其中，上述输入样本可以是数据采集设备采集的图像样本，比如视频帧、雷达帧、点云图像、拍摄的图像等等，本申请不作具体限定。输入样本的标签可以是人工标注的标签，也可以是机器标注的标签，本申请不作具体限定。

6、可选地，上述第一样本集包括第一类别的样本，需要指出的是，第一类别并不是只有一种类别，第一类别可包括多种类别，比如第一样本集包括a类别、b类别以及c类别的样本。上述第二样本集可包括第一类别的样本和第二类别的样本，第一类别为元学习阶段使用的旧类别样本，第二类别为增量学习阶段使用的新类别样本。需要说明的，第二样本集中的第二类别的样本可以包括一个或者多个类别的样本，举例来说，假设元学习阶段学习了3个类别的样本特征，也就是说第一类别的样本包括a类别样本、b类别样本和c类别样本，如果第一个增量学习阶段需要学习2个新类别的样本特征，那么第二类别的样本可包括d类别样本和e类别样本，而第一个增量学习阶段使用的第二样本集包括a～d类别的样本。

7、实施上述实现方式，在增量学习阶段下，每个增量学习阶段所使用的训练样本包括之前学习过的旧类别样本(第一类别的样本)以及新增的新类别样本(第二类别的样本)，从而解决小样本学习对于旧知识的灾难性遗忘问题，

8、在一可能的实现方式中，第三样本集和第二样本集的样本分布不同，第三样本集的样本分布的有偏程度低于第二样本集的样本分布的有偏程度，这里的有偏程度可以值得是样本分布的偏度(skewness)。

9、可选地，第二样本集的样本分布可以是有偏分布(skewed-distribution)，有偏分布可以是指偏度大于阈值的分布，第三样本集的样本分布可以是接近真实场景的真实分布。举例来说，如果真实场景的真实分布是接近均匀分布，那么第三样本集的样本分布为均匀分布，如果真实场景的真实分布是偏向于某一类样本，那么第三样本集的样本分布也可偏向于某一类样本，本申请不作具体限定。举例来说，假设某应用场景下a类别样本出现的概率与b类别样本出现的概率相差不大，那么第三样本集可以是均匀分布的样本集，假设一些应用场景下a类别样本出现的概率远高于比b类别样本出现的概率，那么第三样本集中a类别样本的占比可以大于b类别样本的占比，具体可根据实际应用场景确定第三样本集的有偏程度，本申请不作具体限定。

10、实施上述实现方式，由于第三样本集的样本分布更加接近真实场景的真实分布，使用第三样本集对模型进行增量学习，使得训练时使用的样本分布不再是有偏分布，而是均匀的真实分布，从而解决小样本学习对于新知识的过拟合问题。

11、在一可能的实现方式中，获取第二类别的样本，使用第二类别的样本对第一模型进行训练，获得第三模型，根据第三模型的模型参数对第一类别的样本和第二类别的样本进行高斯采样，获得第二样本集。

12、可选地，根据第三模型的模型参数确定第一类别和第二类别的类别均值向量，确定第一类别的样本和第二类别的样本的特征的协方差矩阵，根据均值向量和协方差矩阵对第一类别的样本和第二类别的样本进行高斯采样，获得第二样本集的样本分布，该样本分布为一个有偏分布。

13、实施上述实现方式，均值向量和协方差矩阵是根据第一类别和第二类别的样本获得的，这样高斯采样后的第二样本集的样本分布是旧类别样本和新类别样本的分布，从而解决小样本学习对于旧知识的灾难性遗忘问题，同时，根据协方差矩阵和均值向量对样本进行高斯采样，使得最终获得的第二样本集的样本分布为有偏分布，再通过对其进行校正第三样本集的样本分布，这样获得的样本分布更加接近真实分布，从而提高最终模型训练的效果。

14、在一可能的实现方式中，将第二样本集的样本分布输入校正模型，获得第三样本集的样本分布，其中，校正模型是使用第四样本集对第二神经网络进行训练后获得的，第四样本集包括输入样本分布和输出样本分布，其中，输出样本分布的有偏程度低于输入样本分布有偏程度，根据第三样本集的样本分布对第二样本集进行调整，获得第三样本集。

15、可选地，述获取第二样本集之前，该方法还可包括以下步骤：根据第一模型的模型参数确定第一类别的类别均值向量；根据第一类别的样本的特征确定第一类别的协方差矩阵，根据第一类别的类别均值向量和第一类别的协方差矩阵，对第一类别的样本进行高斯采样，获得第四样本集，使用第四样本集对第二神经网络进行训练，获得校正模型。

16、实施上述实现方式，先对第一样本集进行高斯采样后获得一个有偏分布，然后通过机器或者人工标注的方式获得该有偏分布对应的接近真实场景的真实分布，然后将有偏分布作为输入样本，真实分布作为输入样本的标签，获得第四样本集，使用该第四样本集对第二网络模型进行训练，可以使得最终训练获得的校正模型具有对输入的样本本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第二样本集包括第一类别的样本和第二类别的样本，所述第一样本集包括所述第一类别的样本，所述第一样本集不包括所述第二类别的样本。

3.根据权利要求2所述的方法，其特征在于，所述获取第二样本集包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第三模型的模型参数对所述第一类别的样本和所述第二类别的样本进行高斯采样，获得所述第二样本集包括：

5.根据权利要求1至4任一权利要求所述的方法，其特征在于，所述对所述第二样本集的样本分布进行校正，获得第三样本集包括：

6.根据权利要求5所述的方法，其特征在于，述获取第二样本集之前，所述方法还包括：

7.根据权利要求1至6任一权利要求所述的方法，其特征在于，所述方法还包括：

8.一种模型训练装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第二样本集包括第一类别的样本和第二类别的样本，所述第一样本集包括所述第一类别的样本

10.根据权利要求9所述的装置，其特征在于，所述装置还包括采样单元，

11.根据权利要求10所述的装置，其特征在于，

12.根据权利要求8至11任一权利要求所述的装置，其特征在于，所述校正单元，用于将所述第二样本集的样本分布输入校正模型，获得所述第三样本集的样本分布，其中，所述校正模型是使用第四样本集对第二神经网络进行训练后获得的，所述第四样本集包括输入样本分布和输出样本分布，其中，所述输出样本分布的有偏程度低于所述输入样本分布有偏程度；

13.根据权利要求12所述的装置，其特征在于，

14.根据权利要求8至13任一权利要求所述的装置，其特征在于，所述训练单元，用于获取第五样本集，使用第五样本集对所述第二模型进行训练，获得训练好的第四模型，其中，所述第五样本集包括所述第一类别、第二类别和第三类别的样本，所述第一样本集和所述第二样本集不包括所述第三类别的样本，所述第五样本集是对第六样本集的样本分布进行校正后获得的，所述第五样本集的样本分布的有偏程度低于所述第六样本集的样本分布的有偏程度。

15.一种计算设备，其特征在于，所述计算设备包括处理器和存储器，所述存储器用于存储代码，所述处理器用于执行所述代码实现如权利要求1至7任一权利要求所述的方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质中存储有指令，所述计算机运行所述指令实现如权利要求1至7任一权利要求所述的方法。

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述获取第二样本集包括：

5.根据权利要求1至4任一权利要求所述的方法，其特征在于，所述对所述第二样本集的样本分布进行校正，获得第三样本集包括：

6.根据权利要求5所述的方法，其特征在于，述获取第二样本集之前，所述方法还包括：

7.根据权利要求1至6任一权利要求所述的方法，其特征在于，所述方法还包括：

8.一种模型训练装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第二样本集包括第一类别的样本和第二类别的样本，所述第一样本集包括所述第一类别的样本，所述第一样本集不包括所述第二类别的样本。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括采样单元，

11.根据权利要求10所述...

【专利技术属性】
技术研发人员：田奇，刘冰昊，谢凌曦，叶齐祥，
申请(专利权)人：华为云计算技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人