基于伪标签的长尾图像识别方法技术

技术编号:38057458 阅读:11 留言:0更新日期:2023-06-30 11:23
本发明专利技术公开了一种基于伪标签的长尾图像识别方法,包括:对输入图片使用两种不同的数据增强方法,获得两组样本,分别输入编码器与动量编码器,得到两组特征表示;将第一组特征表示输入分类器并根据图像真实标签计算加权的交叉熵损失;将两组特征表示分别进行不同的非线性映射以及二范数归一化;将第二组特征表示以及分类器的预测置信度存放到对应类别的特征缓存区;计算加权余弦相似度损失;对编码器和分类器进行随机梯度下降优化,对动量编码器进行动量优化。在自然物种识别任务中,本发明专利技术利用分类器生成的伪标签增广稀缺物种的样本量,并使用自监督训练学习更全面的特征表示,可提高自然场景下物种图像识别准确率。可提高自然场景下物种图像识别准确率。可提高自然场景下物种图像识别准确率。

【技术实现步骤摘要】
基于伪标签的长尾图像识别方法


[0001]本专利技术属于类别不平衡图像识别领域,具体涉及一种自然场景下基于伪标签的长尾图像识别方法。

技术介绍

[0002]自然界中的数据广泛存在分布不平衡的现象,在图像分类的相关研究中,不平衡数据,特别是样本量分布呈长尾状的数据,是目前研究的热门方向之一,其相关研究内容和成果也符合实际应用的需求。不平衡图像数据即在数据集中,不同类别所占有的图像数量是不相等的,在长尾数据分布中,极少数类别(头部类别)占有数据集中的大部分样本,而大多数类别(尾部类别)只占有很少的图像数据。
[0003]神经网络模型在不平衡数据集上训练后,在尾部类别上表现很差,主要原因在于尾部类别的图片数量少。在神经网络模型训练过程中,大部分训练数据都被头部类别所占有,模型训练中所利用的尾部类别图片相比头部类别过少,因此模型在尾部类别数据上的分类性能很差。对于神经网络模型在尾部类别表现差的现象,研究人员使用重采样策略,通过在训练期间对尾部类样本的过采样或对头部类样本的欠采样来增加网络模型所利用到的尾部类数据,加强模型对于尾部类的识别能力。
[0004]重采样技术在不平衡数据上虽然已有很好的分类效果,但是其在总数据量不变的情况下增加尾部类数据的采样频率就意味着减少头部类数据的采样频率,导致模型无法充分利用包含更多信息的头部类数据,破坏了模型的表征学习。

技术实现思路

[0005]本专利技术的目的在于提供一种自然场景下基于伪标签的长尾图像识别方法。
[0006]实现本专利技术目的的技术方案为:第一方面,本专利技术提供一种基于伪标签的长尾图像数据训练方法,包括以下步骤:步骤1,获取自然场景下物种图像数据样本,将分别经过两个不同数据增强的两组样本分别输入编码器和动量编码器获取特征表示和特征表示;步骤2,将特征表示输入分类器并计算加权交叉熵损失;步骤3,分别将特征表示和输入不同的非线性映射器和并进行二范数归一化获得新的特征表示和,计算和之间的余弦相似度损失,并将分类器的预测结果作为的伪标签,并根据伪标签将和预测置信度一起存入特征缓存区;步骤4,根据样本真实标签从缓存区随机选取一个特征表示,计算与之间的加权余弦相似度损失;步骤5,使用随机梯度下降法更新编码器、分类器、非线性映射器的参数,同时使用动量更新法更新动量编码器和非线性映射器的参数,完成训练并保存编码器和分类器参数。
[0007]第二方面,本专利技术提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法的步骤。
[0008]第三方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法的步骤。
[0009]第四方面,本专利技术提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法的步骤。
[0010]本专利技术与现有技术相比,其显著优点为:(1)以伪标签的形式将部分头部类数据迁移到尾部类,既能增加尾部类数据的比重,又能充分利用头部类数据中丰富的语义信息;(2)通过基于余弦相似度损失的自监督学习发掘更全面的图像特征,让模型具有更强的泛化性。
附图说明
[0011]图1为本专利技术基于伪标签的长尾图像识别方法流程图。
具体实施方式
[0012]本专利技术提出一种基于伪标签的长尾图像识别方法,包括以下步骤:对输入图片使用两种不同的数据增强方法,获得两组样本;将两组样本分别输入编码器与动量编码器,得到两组特征表示;将第一组特征表示输入分类器进行分类并根据图像真实标签计算加权的交叉熵损失,权重根据图像所属类别在数据集中所占比重计算得到;将两组特征表示分别进行不同的非线性映射以及二范数归一化;根据分类器预测的伪标签将第二组特征表示以及分类器的预测置信度存放到对应类别的特征缓存区;对两组特征表示计算余弦相似度损失;根据图像真实类别从对应缓存区随机选取一个特征表示,与第一组特征表示计算加权余弦相似度损失,权重为缓存区存放的分类置信度;根据上述损失对编码器和分类器进行随机梯度下降优化,对动量编码器进行动量优化。在自然物种识别任务中,本专利技术利用分类器生成的伪标签增广稀缺物种的样本量,并使用自监督训练学习更全面的特征表示,可提高自然场景下物种图像识别准确率。
[0013]下面结合附图对本专利技术的技术方案进行详细说明。
[0014]结合图1,一种基于伪标签的长尾图像识别方法,具体包括以下步骤:步骤1,使用终端设备采集自然场景下物种图像数据集;步骤2,将分别经过两个不同数据增强的两组样本分别输入编码器和动量编码器获取特征表示和特征表示;所使用的数据增强包含AutoAugment,随机水平翻转,随机改变图像亮度、对比度、饱和度、灰度以及随机高斯模糊。AutoAugment每次从直方图均衡、反相、倾斜、旋转、锐化、亮度调节、色彩调节中随机选取一个对图像进行增强。编码器和动量编码器为结构相同、初始参数相同的卷积神经网络。
[0015]步骤3,将特征表示输入分类器并计算加权交叉熵损失;其中权重为,其中为输入图片类别,为训练集中类别样本量,将分类器输出加上权重后计算交叉熵损失。
[0016]步骤4,分别将特征表示和输入不同的非线性映射器和并进行二范数归一化获得新的特征表示和,计算和之间的余弦相似度损失,并将分类器的预测结果作为的伪标签,并根据伪标签将和预测置信度一起存入特征缓存区;非线性映射器由线性分类器、批归一化、ReLU激活构成。和结构与初始化参数相同。特征缓存区为每个类别维护一个容量固定的特征队列,每次存入一个新的特征都会删除最早加入队列的特征。预测置信度由步骤2得到的分类器输出经过sigmoid激活处理得到。余弦相似度损失为其中为控制损失权重的超参数。
[0017]步骤5,根据样本真实标签从缓存区随机选取一个特征表示,计算与之间的加权余弦相似度损失;表示伪标签为的特征表示。加权余弦相似度损失中权重为步骤4得到的预测置信度,加权余弦相似度损失为其中为控制损失权重的超参数。
[0018]步骤6,使用随机梯度下降法更新编码器、分类器、非线性映射器的参数,同时使用动量更新法更新动量编码器和非线性映射器的参数,完成训练并保存编码器和分类器的参数;动量更新法为其中为动量编码器的参数,为编码器参数,为控制动量更新速度的超参数。
[0019]步骤7,加载模型参数对自然物种图像进行识别。
[0020]作为其他实施方式,编码器和动量编码器的结构可以根据实际需求进行设计。
[0021]作为其他实施方式,随机梯度下降法可以替换为其他参数优化方法。
[0022]作为其他实施方式,自然物种图像数据集可以根据实际应用需求替换为其他领域的长尾图像数据。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于伪标签的长尾图像识别方法,其特征在于,包括以下步骤:步骤1,获取自然场景下物种图像数据样本,将分别经过两个不同数据增强的两组样本分别输入编码器和动量编码器获取特征表示和特征表示;步骤2,将特征表示输入分类器并计算加权交叉熵损失;步骤3,分别将特征表示和输入不同的非线性映射器和并进行二范数归一化获得新的特征表示和,计算和之间的余弦相似度损失,并将分类器的预测结果作为的伪标签,并根据伪标签将和预测置信度一起存入特征缓存区;步骤4,根据样本真实标签从缓存区随机选取一个特征表示,计算与之间的加权余弦相似度损失;步骤5,使用随机梯度下降法更新编码器、分类器、非线性映射器的参数,同时使用动量更新法更新动量编码器和非线性映射器的参数,完成训练并保存编码器和分类器参数。2.根据权利要求1所述的基于伪标签的长尾图像识别方法,其特征在于,步骤1所使用的数据增强包含AutoAugment,随机水平翻转,随机改变图像亮度、对比度、饱和度、灰度以及随机高斯模糊;AutoAugment每次从直方图均衡、反相、倾斜、旋转、锐化、亮度调节、色彩调节中随机选取一个对图像进行增强;编码器和动量编码器为结构相同、初始参数相同的卷积神经网络。3.根据权利要求1所述的基于伪标签的长尾图像识别方法,其特征在于,步骤2中,交叉熵损失的权重为,其中为输入图片类别,为训练集中类别样本量,将分类器输出加上权重后计算交叉熵损失。4.根据权利要求1所述的基于伪标签的长尾图像识别方...

【专利技术属性】
技术研发人员:沈阳孙旭豪魏秀参
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1