一种基于自监督模型的图像分类方法及装置制造方法及图纸

技术编号:37961579 阅读:10 留言:0更新日期:2023-06-30 09:36
本申请公开了一种基于自监督模型的图像分类方法及装置,用以解决当前针对图像分类的自监督模型存在的特征提取能力较弱、模型性能较差的问题。该方法根据无标签训练集,训练初始自监督模型;结合有标签数据,对所述初始自监督模型进行联合训练,得到图像分类模型;在所述联合训练的过程中,按照模型网络各阶段的图像块大小,分别对输入图像进行掩码处理,并计算各阶段输出预测的损失;采用所述图像分类模型,进行图像分类。本方法设计了一种多阶段的目标,能够预测输入图像全分辨率下的所有像素值,大大提高了图像局部上下文信息的捕捉能力,以进一步提高模型的预测性能。以进一步提高模型的预测性能。以进一步提高模型的预测性能。

【技术实现步骤摘要】
一种基于自监督模型的图像分类方法及装置


[0001]本申请涉及自监督学习
,尤其涉及一种基于自监督模型的图像分类方法及装置。

技术介绍

[0002]在人工智能的发展中,机器学习是极为重要的一部分。机器学习分为有监督学习、无监督学习和强化学习。其中,无监督学习中有一种学习方式是自监督学习,它能够在无监督的情况下,学习到一种通用的特征表达,以用于图像分类、目标检测、语义分割等下游任务。
[0003]在自然语言处理(Natural Language Processing,NPL)中,生成式自监督模型被广泛用作预训练语言模型的目标,其通常以自我监督的方式,从大量未标记的语料库中提取语义信息。在生成式自监督模型的设置中,输入模型的句子中一定百分比的标记被掩蔽,其目标在于仅根据其上下文预测掩蔽的标记对应的原始信息。
[0004]但在视觉领域,图像与文本相比具有更高的维度、噪声和冗余格式,当前针对图像分类的自监督模型仍存在特征提取能力较弱、模型性能较差的问题。

技术实现思路

[0005]本申请实施例提供一种基于自监督模型的图像分类方法及装置,用以解决当前针对图像分类的自监督模型存在的特征提取能力较弱、模型性能较差的问题。
[0006]本申请实施例提供的一种基于自监督模型的图像分类方法,包括:
[0007]根据无标签训练集,训练初始自监督模型;
[0008]结合有标签数据,对所述初始自监督模型进行联合训练,得到图像分类模型;
[0009]在所述联合训练的过程中,按照模型网络各阶段的图像块大小,分别对输入图像进行掩码处理,并计算各阶段输出预测的损失;
[0010]采用所述图像分类模型,进行图像分类。
[0011]在一个示例中,按照模型网络各阶段的图像块大小,分别对输入图像进行掩码处理,具体包括:确定模型网络各阶段的图像块分辨率;分别采用与相应阶段图像块分辨率相同大小的补丁,对输入图像进行掩码处理。
[0012]在一个示例中,计算各阶段输出预测的损失,具体包括:根据编码器针对各阶段的输出预测,以及相应阶段进行掩码处理的输入图像,计算各阶段对应的损失;根据所述损失,进行梯度回传训练。
[0013]在一个示例中,所述编码器至少采用以下任意一种:swin编码器,PVT编码器。
[0014]在一个示例中,联合训练过程中的解码器采用轻量级图像解码器TJpgDec。
[0015]在一个示例中,对输入图像进行掩码处理,具体包括:根据确定出的补丁大小,对输入图像进行设定概率下的随机掩码;对随机掩码后的图像再进行随机移动掩码。
[0016]在一个示例中,训练初始自监督模型之前,所述方法还包括:采集源图像,建立初
始训练集;对所述初始训练集进行数据增强,得到所述无标签训练集;所述数据增强至少包括对图像的归一化处理、多尺度裁剪处理、旋转处理中任意一项。
[0017]在一个示例中,归一化处理时采用的公式为:
[0018][0019]其中x表示输入数据,x
*
表示归一化后的输出,使得所有数据在[0,1]之间,归一化处理提升收敛的速度并且能够提高模型的精度,max(x)表示取最大值,min(x)表示取最小值,以及所述最大值、最小值之间的差值,对所述源图像进行归一化处理;所述多尺度裁剪处理包括:基于设定的缩放因子,对所述源图像进行不同尺度的缩放处理;所述旋转处理包括:基于设定的旋转角度,对所述源图像进行旋转。
[0020]在一个示例中,所述模型网络为swin转化器网络;按照模型网络各阶段的图像块大小,分别对输入图像进行掩码处理,具体包括:根据所述swin转化器网络不同阶段4
×
4,8
×
8,16
×
16,32
×
32的图像块大小,分别采用分辨率4
×
4,8
×
8,16
×
16,32
×
32的补丁对输入图像进行掩码处理。
[0021]本申请实施例提供的一种基于自监督模型的图像分类装置,包括:
[0022]第一训练模块,根据无标签训练集,训练初始自监督模型;
[0023]第二训练模块,结合有标签数据,对所述初始自监督模型进行联合训练,得到图像分类模型;
[0024]处理模块,在所述联合训练的过程中,按照模型网络各阶段的图像块大小,分别对输入图像进行掩码处理,并计算各阶段输出预测的损失;
[0025]分类模块,采用所述图像分类模型,进行图像分类。
[0026]本申请实施例提供一种基于自监督模型的图像分类方法及装置,通过对模型网络各阶段的输入图像采用不同大小的补丁进行掩码处理,并分别计算模型网络各阶段的损失,设计了一种多阶段的目标,能够预测输入图像全分辨率下的所有像素值,大大提高了图像局部上下文信息的捕捉能力,以进一步提高模型的预测性能。并且,本申请引入了特征提取能力强的自监督模型编码器,以及轻量级设计的解码器,能够很好的提升模型的性能和精准度。
[0027]与有监督图像分类算法相比,自监督图像分类算法在建立训练集时能够节约大量人工标注成本,并减少训练集的准备时间,其能从大规模未标记数据中学习图像特征,而无需使用任何人工标注数据,并且能达到甚至超越监督学习方法达到的精度。并且,数据增强能够扩大数据集的规模,并增加数据的多样性,其在后续的模型训练过程中,有利于提高模型的鲁棒性和多样性。另外,结合给定的有标签数据,进行联合训练,使模型仅依靠较少的人工标注数据,即能达到甚至超越监督学习方法达到的精度,从而有效提升网络对目标物体的分类,并促进迁移学习更好的任务对齐和体系结构对齐。
附图说明
[0028]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0029]图1为本申请实施例提供的基于自监督模型的图像分类方法流程图;
[0030]图2为本申请实施例提供的基于自监督模型的图像分类装置结构示意图。
具体实施方式
[0031]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0032]图1为本申请实施例提供的基于自监督模型的图像分类方法流程图,具体包括以下步骤:
[0033]S101:根据无标签训练集,训练初始自监督模型。
[0034]在本申请实施例中,基于自监督学习方法,通过无标签训练集训练初始自监督模型,并可通过验证集对后续模型的性能进行检验,以确定模型是否训练完成。
[0035]其中,无标签训练集与验证集的数据量可根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督模型的图像分类方法,其特征在于,包括:根据无标签训练集,训练初始自监督模型;结合有标签数据,对所述初始自监督模型进行联合训练,得到图像分类模型;在所述联合训练的过程中,按照模型网络各阶段的图像块大小,分别对输入图像进行掩码处理,并计算各阶段输出预测的损失;采用所述图像分类模型,进行图像分类。2.根据权利要求1所述的方法,其特征在于,按照模型网络各阶段的图像块大小,分别对输入图像进行掩码处理,具体包括:确定模型网络各阶段的图像块分辨率;分别采用与相应阶段图像块分辨率相同大小的补丁,对输入图像进行掩码处理。3.根据权利要求1所述的方法,其特征在于,计算各阶段输出预测的损失,具体包括:根据编码器针对各阶段的输出预测,以及相应阶段进行掩码处理的输入图像,计算各阶段对应的损失;根据所述损失,进行梯度回传训练。4.根据权利要求3所述的方法,其特征在于,所述编码器至少采用以下任意一种:swin编码器,PVT编码器。5.根据权利要求1所述的方法,其特征在于,所述联合训练过程中的解码器采用轻量级图像解码器TJpgDec。6.根据权利要求2所述的方法,其特征在于,对输入图像进行掩码处理,具体包括:根据确定出的补丁大小,对输入图像进行设定概率下的随机掩码;对随机掩码后的图像再进行随机移动掩码。7.根据权利要求1所述的方法,其特征在于,训练初始自监督模型之前,所述方法还包括:采集源图像,建立初始训练集;对所述初始训练集进行数据增强,得到所述无标签训练集;所述数据增强至少包括对图像的归一化处理、多尺度裁...

【专利技术属性】
技术研发人员:徐博诚
申请(专利权)人:重庆特斯联启智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1