图像分类模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：41257680 阅读：3 留言：0更新日期：2024-05-11 09:17

本申请公开了一种图像分类模型训练方法、装置、电子设备及存储介质，属于人工智能技术领域。方法包括：采用第一样本图像集对预设的视觉模型进行生成式自监督训练，以对视觉模型的底层参数进行更新；底层参数表示用于提取图像视觉特征的参数；加载更新后的底层参数作为初始化，采用第二样本图像集对视觉模型进行判别式自监督训练，以对视觉模型的高阶参数进行更新；高阶参数表示用于提取图像空间特征的参数；加载更新后的底层参数和更新后的高阶参数作为初始化，采用标注有图像类别的第三样本图像集对视觉模型进行有监督训练。本申请实施例充分融合了生成式和判别式的自监督学习方法优势，从而在全量微调和小样本分类任务上取得性能的领先。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于人工智能，尤其涉及一种图像分类模型训练方法、装置、电子设备及存储介质。

技术介绍

1、随着人工智能技术的飞速发展，深度学习在工业领域得到了广泛应用。通过加载在大规模无标注数据集上预训练得到的模型参数作为初始化，然后在下游任务数据上对模型初始化参数进行微调，这种预训练-微调范式成为了深度学习应用中的主流方法。

2、现有技术方案常采用自然场景数据集imagenet上预训练得到的权重对模型进行初始化，然后在工业具体任务场景下进行迁移学习，采用少量带标注的数据对模型进行微调，从而获得最终应用于各个工业场景的专有模型。

3、然而，imagenet数据集多为自然场景图像，这与工业场景数据之间存在巨大的域间差异。因此，使用imagenet数据进行预训练的模型并没有学习到工业场景图像的有效视觉表征，使得在模型微调的时候需要更多的数据以及迭代轮次使得模型权重从自然场景向工业场景转移，这导致模型性能下降。

技术实现思路

1、本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种图像分类模型训练方法、装置、电子设备及存储介质，以提高模型在小样本分类任务上的性能。

2、第一方面，本申请提供了一种图像分类模型训练方法，包括：

3、采用第一样本图像集对预设的视觉模型进行生成式自监督训练，以对所述视觉模型的底层参数进行更新；所述底层参数表示用于提取图像视觉特征的参数；

4、加载更新后的底层参数作为初始化，采用第二样本图像集对所述

5、加载更新后的底层参数和更新后的高阶参数作为初始化，采用标注有图像类别的第三样本图像集对所述视觉模型进行有监督训练。

6、根据本申请的图像分类模型训练方法，通过采用第一样本图像集对预设的视觉模型进行生成式自监督训练，以对所述视觉模型的底层参数进行更新；所述底层参数表示用于提取图像视觉特征的参数；加载更新后的底层参数作为初始化，采用第二样本图像集对所述视觉模型进行判别式自监督训练，以对所述视觉模型的高阶参数进行更新；所述高阶参数表示用于提取图像空间特征的参数；加载更新后的底层参数和更新后的高阶参数作为初始化，采用标注有图像类别的第三样本图像集对所述视觉模型进行有监督训练。本申请实施例通过两阶段的训练方式，不需要人工标注的数据，只需要未标记数据作为训练集，充分发挥两种自监督学习方法的优势，使得面向工业场景的预训练模型既能学习到工业场景丰富的视觉底层特征，又能学习到高阶抽象的图像类别特征，并且在判别式自监督训练时更新高阶参数，约束底层参数的更新，充分融合了生成式和判别式的自监督学习方法，在微调阶段，仅需要少量的有标注数据，从而在全量微调和小样本分类任务上取得性能的领先。

7、根据本申请的一个实施例，所述采用第一样本图像集对预设的视觉模型进行生成式自监督训练，以对所述视觉模型的底层参数进行更新，包括：

8、对所述第一样本图像集中样本图像的随机区域进行掩码；

9、基于所述视觉模型的底层参数提取所述样本图像中未被掩码区域对应的特征向量；

10、根据所述特征向量与所述样本图像中的掩码区域之间的关联关系对掩码区域进行重建，得到重建图像；

11、基于所述重建图像与所述样本图像的差异在所述视觉模型中进行反向传播，以对所述视觉模型的底层参数进行更新。

12、该实施例通过对样本集中的样本图像进行掩码和重建的方式实现模型训练，能够学习数据的分布，从而能够生成与训练数据相似的新数据，有助于模型学习图像的视觉底层特征和结构，提高模型的泛化能力。

13、根据本申请的一个实施例，所述对所述第一样本图像集中样本图像的随机区域进行掩码，包括：

14、将所述样本图像分割成预设大小的多个图像块；

15、以预设的掩码比例随机选择图像块进行掩码；所述掩码比例表示被掩码的图像块数量与总图像块数量的比例。

16、在该实施例中，通过对图像进行分割和随机掩码的方式对样本图像的随机区域进行掩码，能够基于样本图像生成新的数据样本，这些数据可以用于增加训练数据的多样性，提高模型的泛化能力。特别是在样本稀缺的情况下，通过对图像进行分割和随机掩码的方式对样本图像的随机区域进行掩码的方式还可以起到数据增强的作用。

17、根据本申请的一个实施例，所述基于所述重建图像与所述样本图像的差异在所述视觉模型中进行反向传播，以对所述视觉模型的底层参数进行更新，包括：

18、计算表征所述重建图像与所述样本图像差异的第一损失函数；其中，所述重建图像与所述样本图像的差异越小，所述第一损失函数值越小；

19、根据所述第一损失函数在所述视觉模型中进行反向传播，以对所述视觉模型的底层参数进行更新。

20、在该实施例中，可以通过表征所述重建图像与所述样本图像差异的第一损失函数来做为反向传播的输入，第一损失函数越小，则表示模型训练的效果越好，通过这种方式能够准确了解视觉模型的训练进度。

21、根据本申请的一个实施例，所述加载更新后的底层参数作为初始化，采用第二样本图像集对所述视觉模型进行判别式自监督训练，包括：

22、基于不同的数据增强方式对所述第二样本图像集中样本图像的进行多次数据增强，得到所述样本图像对应的多个增广图像；

23、将所述样本图像对应的多个增广图像作为一个样本对，基于所述视觉模型的高阶参数和初始化的底层参数提取所述样本对中各个样本的特征向量；

24、根据所述样本对中各个样本的特征向量之间的差异在所述视觉模型中进行反向传播，以对所述视觉模型的高阶参数进行更新。

25、在该实施例中，通过构建样本对的方式比对样本对中各个样本的差异实现模型的训练，能够基于比对样本对中各个样本的差异学习图像在空间结构上多尺度与多视角的特征，提高了模型对高阶类别特征的抽象能力，进一步的，通过加载生成式自监督训练更新的底层参数作为初始化参数参与特征的提取，并且在训练过程中约束底层参数的更新，对高阶参数进行更新，有效融合了生成式和判别式的自监督学习方法的优势，进一步了模型的性能。

26、根据本申请的一个实施例，所述样本对包括正样本对和负样本对；所述正样本对和所述负样本包括不同样本图像对应的多个增广图像；

27、所述根据所述样本对中各个样本的特征向量之间的差异在所述视觉模型中进行反向传播，以对所述视觉模型的高阶参数进行更新，包括：

28、根据所述正样本对中各个正样本的特征向量之间的差异，以及所述正样本对中各个正样本的特征向量与所述负样本对中各个负样本的特征向量之间的差异构建第二损失函数；其中，所述正样本对中各个正样本的特征向量之间的差异越小，所述正样本对中各个正样本的特征向量与所述负样本对中各个负样本的特征向量之间的差异越大，所述第二损失函数值越小本文档来自技高网...

【技术保护点】

1.一种图像分类模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述采用第一样本图像集对预设的视觉模型进行生成式自监督训练，以对所述视觉模型的底层参数进行更新，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一样本图像集中样本图像的随机区域进行掩码，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述重建图像与所述样本图像的差异在所述视觉模型中进行反向传播，以对所述视觉模型的底层参数进行更新，包括：

5.根据权利要求1所述的方法，其特征在于，所述加载更新后的底层参数作为初始化，采用第二样本图像集对所述视觉模型进行判别式自监督训练，包括：

6.根据权利要求1所述的方法，其特征在于，所述样本对包括正样本对和负样本对；所述正样本对和所述负样本包括不同样本图像对应的多个增广图像；

7.根据权利要求1所述的方法，所述加载更新后的底层参数和更新后的高阶参数作为初始化，采用标注有图像类别的第三样本图像集对所述视觉模型进行有监督训练，包括：

8.一种图像分类模型

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种图像分类模型训练方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一样本图像集中样本图像的随机区域进行掩码，包括：

6.根据权利要求...

【专利技术属性】
技术研发人员：高鹏程，杨腾，唐永亮，
申请(专利权)人：深圳市凌云视迅科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人