模型预训练方法、模型预训练装置、计算机设备和存储介质制造方法及图纸

技术编号：40838480 阅读：4 留言：0更新日期：2024-04-01 15:04

本申请公开一种模型预训练方法、模型预训练装置、计算机设备及非易失性计算机可读存储介质。方法包括对输入样本使用第一增广参数进行数据增广，以生成第一增广样本，对输入样本使用第二增广参数进行数据增广，以生成第二增广样本，第一增广参数和第二增广参数不同；输入第一增广样本到预训练模型的第一训练分支，以输出第一特征信息，输入第二增广样本到预训练模型的第二训练分支，以输出第二特征信息；根据第一特征信息和第二特征信息，确定特征损失信息；根据特征损失信息更新第一训练分支及第二训练分支的模型参数，以生成预训练模型的模型预训练参数。通过数据增广充分利用有限的工业场景样本，而通过自监督对比学习，可无需对样本进行标注。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及模型训练，更具体而言，涉及一种模型预训练方法、模型预训练装置、计算机设备和非易失性计算机可读存储介质。

技术介绍

1、随着人工智能技术的飞速发展，其在工业领域得到了广泛应用，如工业缺陷识别、分类以及分割等等。然而，工业缺陷数据往往具有浅、弱、小的特点，这使得标注成本较高且需要数据标注人员具备一定的专业性知识。

2、现有的技术手段往往采用imagenet预训练得到的权重对模型进行初始化，然后在工业具体任务场景下进行迁移学习，采用少量带标注的数据对模型进行微调，从而获得最终应用于各个工业场景的专有模型。

3、现有的技术使用imagenet数据集对模型进行预训练，但imagenet数据均为自然场景图像，这与工业场景数据之间存在巨大的域间差异。因此，使用imagenet数据进行预训练的模型并没有学习到工业场景图像的通用视觉表征，使得在模型微调的时候需要更多的数据以及迭代轮次使得模型权重从自然场景向工业场景转移，这导致在有限样本的条件下，模型性能下降，从而无法应用于实际场景。

技术实现思路

1、本申请实施方式提供一种模型预训练方法、模型预训练装置、计算机设备和非易失性计算机可读存储介质。

2、本申请实施方式的模型预训练方法包括对输入样本使用第一增广参数进行数据增广，以生成与所述输入样本不同的第一增广样本，对所述输入样本使用第二增广参数进行数据增广，以生成与所述输入样本不同的第二增广样本，所述第一增广参数和所述第二增广参数不同；输入所述第一增广样本

3、在某些实施方式中，所述第一增广参数和所述第二增广参数包括色彩抖动、随机灰度化、高斯模糊和曝光中至少一种。

4、在某些实施方式中，所述输入样本为无标注样本，各个所述输入样本对应的所述第一增广参数相同，且各个所述输入样本对应的所述第二增广参数相同；或者，各个所述输入样本对应的所述第一增广参数至少部分不相同，各个所述输入样本对应的所述第二增广参数至少部分不相同。

5、在某些实施方式中，所述模型预训练方法还包括对各个原始样本进行预处理，以分别生成尺寸相同的所述输入样本，所述预处理包括裁剪和下采样中至少一种。

6、在某些实施方式中，所述根据所述第一特征信息和所述第二特征信息，确定特征损失信息，包括：根据所述第一特征信息和所述第二特征信息，计算余弦相似度；根据所述余弦相似度计算余弦相似度损失，以作为所述特征损失信息；或者，根据所述余弦相似度计算交叉熵损失，以作为所述特征损失信息。

7、在某些实施方式中，所述根据所述特征损失信息更新所述第一训练分支及所述第二训练分支的模型参数，包括：根据所述特征损失信息更新所述第一训练分支的模型参数；根据连续多轮训练过程后的所述第一训练分支的模型参数的滑动平均值，更新所述第二训练分支的模型参数。

8、在某些实施方式中，所述第一训练分支的感知机层数大于所述第二训练分支的感知机层数。

9、本申请实施方式的模型预训练装置包括数据增广模块、特征提取模块、损失计算模块和参数更新模块。所述数据增广模块用于对输入样本使用第一增广参数进行数据增广，以生成与所述输入样本不同的第一增广样本，对所述输入样本使用第二增广参数进行数据增广，以生成与所述输入样本不同的第二增广样本，所述第一增广样本和所述第二增广样本不同；所述特征提取模块用于输入所述第一增广样本到预训练模型的第一训练分支，以输出第一特征信息，输入所述第二增广样本到预训练模型的第二训练分支，以输出第二特征信息；所述损失计算模块用于根据所述第一特征信息和所述第二特征信息，确定特征损失信息；所述参数更新模块用于根据所述特征损失信息更新所述第一训练分支及所述第二训练分支的模型参数，以生成所述预训练模型的模型预训练参数。

10、本申请实施方式的计算机设备包括处理器、存储器及计算机程序，其中，所述计算机程序被存储在所述存储器中，并且被所述处理器执行，所述计算机程序包括用于执行上述任一实施方式所述的模型预训练方法的指令。

11、本申请实施方式的非易失性计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任一实施方式所述的模型预训练方法。

12、本申请实施方式的模型预训练方法、模型预训练装置、计算机设备和计算机可读存储介质通过对输入样本分别使用不同的增广参数进行数据，从而分别生成与输入样本不同的第一增广样本和第二增广样本，从而得到更多当前工业场景下的样本，以进行后续的模型预训练。如此，通过数据增广充分挖掘输入样本中所蕴涵的信息，从而更好地学习工业场景下的通用视觉表征，提升模型在仅有有限标注数据的下游任务应用时的性能。

13、且同一输入样本对应的第一增广样本和第二增广样本构成正样本对，不同输入样本之间构成负样本，利用构成正样本对的第一增广样本和第二增广样本分别输入不同的训练分支，通过对比不同分支的特征损失，实现自监督预训练，本申请无需人为对样本进行标注，大大减少了人力成本。

14、本申请的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实施方式的实践了解到。

本文档来自技高网...

【技术保护点】

1.一种模型预训练方法，其特征在于，包括：

2.根据权利要求1所述的模型预训练方法，其特征在于，所述第一增广参数和所述第二增广参数包括色彩抖动、随机灰度化、高斯模糊和曝光中至少一种。

3.根据权利要求1所述的模型预训练方法，其特征在于，所述输入样本为无标注样本，各个所述输入样本对应的所述第一增广参数相同，且各个所述输入样本对应的所述第二增广参数相同；或者，各个所述输入样本对应的所述第一增广参数至少部分不相同，各个所述输入样本对应的所述第二增广参数至少部分不相同。

4.根据权利要求2所述的模型预训练方法，其特征在于，还包括：

5.根据权利要求1所述的模型预训练方法，其特征在于，所述根据所述第一特征信息和所述第二特征信息，确定特征损失信息，包括：

6.根据权利要求1或5所述的模型预训练方法，其特征在于，所述根据所述特征损失信息更新所述第一训练分支及所述第二训练分支的模型参数，包括：

7.根据权利要求1所述的模型预训练方法，其特征在于，所述第一训练分支的感知机层数大于所述第二训练分支的感知机层数。

9.一种计算机设备，其特征在于，包括：

10.一种包含计算机程序的非易失性计算机可读存储介质，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1-7任意一项所述的模型预训练方法。

...

【技术特征摘要】

1.一种模型预训练方法，其特征在于，包括：

4.根据权利要求2所述的模型预训练方法，其特征在于，还包括：

5.根据权利要求1所述的模型预训练方法，其特征在于，所...

【专利技术属性】
技术研发人员：杨腾，高鹏程，唐永亮，
申请(专利权)人：深圳市凌云视迅科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人