当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于基类样本特征合成的小样本图像分类方法技术

技术编号:33205352 阅读:31 留言:0更新日期:2022-04-24 00:50
本发明专利技术涉及小样本图像分类技术领域,具体涉及一种基于基类样本特征合成的小样本图像分类方法,本发明专利技术利用监督对比损失函数在基类数据集上对模型进行预训练得到特征提取器,提取基类和新类样本特并计算原型,对于每类新类原型,利用Cosine相似性计算其近邻基类原型,并在新类原型与其近邻基类原型之间线性合成若干新的样本特征。本发明专利技术在不考虑样本分布的情况下,就能实现少量支持样本特征的增强,从而提高小样本图像分类性能。本发明专利技术将基类视为多数类,采用过采样技术对新类中的样本进行扩充,能够解决基类与新类之间样本不平衡问题。能够解决基类与新类之间样本不平衡问题。能够解决基类与新类之间样本不平衡问题。

【技术实现步骤摘要】
一种基于基类样本特征合成的小样本图像分类方法


[0001]本专利技术涉及小样本图像分类
,具体涉及一种基于基类样本特征合成的小样本图像分类方法。

技术介绍

[0002]图像分类是机器学习和计算机视觉领域中的一项非常重要的基础性课题,在诸如目标检测、行人重识别、目标跟踪等众多前沿研究领域中起着至关重要的作用。近年来,伴随着大量标签图像数据的出现,该领域利用深度学习技术取得突破性进展。但是只从少量图像数据中就快速形成并理解一个新的概念,对于深度神经网络来说仍然是一个非常巨大的挑战。小样本学习旨在标注数据非常少的情况下完成相关学习任务,是解决上述问题的主要方法。而在图像分类任务中,小样本学习技术利用少量的训练样本完成图像的分类决策。
[0003]小样本图像分类任务中存在的根本问题在于每类样本数量太少从而导致无法精确地刻画每类样本的分布。因而,在原图像空间对图像样本集进行扩充或者在特征空间进行增强是解决该问题的有效方式。目前,已经出现了若干基于数据增强的小样本图像分类方法。例如Chen等(Chen Z T,FuYW,Chen KY,Jiang Y G.Image block augmentation for one

shot learning.[C]//Proceedings of the 34th AAAI Conference on Artificial Intelligence,Hawaii,USA,2019:3379

3386.)通过将相似的无标签图像中某些小块代替新类支持图像样本中某些小块的拼图技术实现图像样本的扩充;Zhang等(Zhang H,Zhang J,Koniusz P.Few

shot learning via saliency

guided hallucination of samples[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2019:2770

2779)利用显著性目标检测算法,将图像分割成前景与背景,再将不同图片的前景和背景进行拼合,组成更多的合成图像,以此实现数据集的扩充;除此之外,在特征空间进行数据增强是对每类样本的类间变化进行建模的有效手段。例如,Hariharan等(Hariharan B,Girshick,R..Low

shot visual recognition by shrinking and hallucinating features[C]/Proceedings ofthe IEEE International Conference on ComputerVision,Venice,Italy,2017:3018

3027.)利用自动编码器对同类别不同样本之间的变化建立模型,然后借助于这种变化信息为新类中的样本生成新样本来实现图像集的扩充。另外,通过生成器与判别器互相博弈隐含地对学习数据分布的生产式对抗网络同样也是实现小样本特征增强的有效方式。例如,Li等(Li K,Zhang Y,Li K,Fu Y,Adversarial feature hallucination networks for few

shot learning[C]//Proceedings ofthe 33rd IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ,USA:IEEE Press,2020:2020:13467

13476.)使用更稳定的Wasserstein GAN和两个新颖的正则化项来同时保证所生成的小样本数据特征的判别性和多样性。
[0004]然而,上述方法往往采用复杂的自编码器或者生成式对抗网络隐含对数据分布进
行建模,并且还忽略了基类样本与新类样本非常不平衡的问题。为了解决上述问题,本专利技术提供了一种基于基类样本特征合成的小样本图像分类方法。

技术实现思路

[0005]针对以上问题,本专利技术提供了一种基于基类样本特征合成的小样本图像分类方法,在不考虑样本分布的情况下,就能实现少量支持样本特征的增强,从而提高小样本图像分类性能。
[0006]为了实现上述目的,本专利技术采用的技术方案如下:
[0007]一种基于基类样本特征合成的小样本图像分类方法,包括以下步骤:
[0008]步骤1:对于给定的数据集D,确定待处理的基类数据集D
base
和新类数据集D
novel
。其中表示基类数据集中第c个类别数据样本集合,x
m
表示第m个基类图像样本,y
m
表示其对应的标签,C
b
表示基类数据集中的类别总数,N
c
为第c个类别基类数据样本的数目。在D
novel
上构建N

way

K

shot分类任务,每个分类任务由支持样本集和查询样本集组成,其中x
s
表示第s个支持样本,y
s
表示对应的标签,x
q
表示第q个查询样本。
[0009]步骤2:从基类数据集D
base
中随机抽取M个图像样本,使用图像增强技术将其扩充为2M个样本,然后将其输入到参数为α的编码器E
α
()和参数为β的投影器P
β
()中,得到由2M个数据特征组成的集合其中u
m
表示第m个图像样本的特征,y
m
为其对应的标签。假定集合中任意数据为锚点,并将其作为正例样本,将集合A(m)中与该锚点标签的所有样本视为正例样本,构建正例样本集合P(m),而集合A(m)中的所有剩余样本为负例样本,构建负例样本集合N(m)。计算关于正例样本集合P(n)与负例样本集合N(n)之间的监督对比损失,计算该损失函数关于参数的梯度,并利用梯度下降算法对编码器E
α
()中参数α和投影器P
β
()中参数β进行优化。
[0010]步骤3:将步骤2中预训练好的编码器E
α
()作为特征提取器,对基类数据集中的所有样本提取特征,并计算每类样本的原型。假定基类数据集中所有类的原型集合为其中P
c
为基类数据集中第c个类别的原型。
[0011]步骤4,将步骤2中预训练好的编码器E
α
()作为特征提取器,对新类数据集中的支持图像样本提取特征,并计算每类支持样本的原型特征。假设第n个类别的原型表示为P
n
,利用cosine相似性计算其与基类原型数据集P
base
的L个近邻,然后在P
n...

【技术保护点】

【技术特征摘要】
1.一种基于基类样本特征合成的小样本图像分类方法,其特征在于,包括以下步骤:步骤1:对于给定的数据集D,确定待处理的基类数据集D
base
和新类数据集D
novel
;其中表示基类数据集中第c个类别数据样本集合,x
m
表示第m个基类图像样本,y
m
表示其对应的标签,C
b
表示基类数据集中的类别总数,N
c
为第c个类别基类数据样本的数目;在D
novel
上构建N

way

K

shot分类任务,每个分类任务由支持样本集和查询样本集组成,其中x
s
表示第s个支持样本,y
s
表示对应的标签,x
q
表示第q个查询样本;步骤2:从基类数据集D
base
中随机抽取M个图像样本,使用图像增强技术将其扩充为2M个样本,然后将其输入到参数为α的编码器E(
α
)和参数为β的投影器P(
β
)中,得到由2M个数据特征组成的集合其中u
m
表示第m个图像样本的特征,y
m
为其对应的标签;假定集合中任意数据为锚点,并将其作为正例样本,将集合A(m)中与该锚点标签的所有样本视为正例样本,构建正例样本集合P(m),而集合A(m)中的所有剩余样本为负例样本,构建负例样本集合N(m);计算关于正例样本集合P(n)与负例样本集合N(n)之间的监督对比损失,计算该损失函数关于参数的梯度,并利用梯度下降算法对编码器E(
α
)中参数α和投影器P(
β
)中参数β进行优化;步骤3:将步骤2中预训练好的编码器E(
α
)作为特征提取器,对基类数据集中的所有样本提取特征,并计算每类样本的原型;假定基类数据集中所有类的原型集合为其中P
c
为基类数据集中第c个类别的原型;步骤4,将步骤2中预训练好的编码器E(
α
)作为特征提取器,对新类数据集中的支持图像样本提取特征,并计算每类支持样本的原型特征;假设第n个类别的原型表示为P
n
,利用cosine相似性计算其与基类原型数据集P
base
的L个近邻,然后在P
n
与其每个近邻基类原型之间线性合成产生新的样本特征;步骤5:利用增广后的支持样本数据集对逻辑回归分类器进行训练;步骤6:将步骤2中预训练好的编码器E(
α
)作为特征提取器,对新类数据集中的查询图像样本提取特征,利用训练好的逻辑回归分类器进行测试。2.根据权利要求1所述的一种基于基类样本特征合成的小样本图像分类方法,其特征在于,所述步骤1的具体步骤如下:将训练集D
train
作为基类数据集D
base
,测试集D
test
作为新类数据集D
novel
,在D
novel
数据集中随机抽取N个类别,每个类别中随机抽取K个样本,得到支持样本集其中x
s
表示第s个支持样本,y
s
表示对应的标签,再在N个类别中的剩余数据中抽取一批样本得到查询样本集其中x
q
表示第q个查询样本。3.根据权利要求1所述的一种基于基类样本特征合成的小样本图像分类方法,其特征在于,所述步骤2 中,基于监督对比损失函数的优化过程如下:(1)从D
train
抽取M个图像样本作为训练的批图像样本集D
M
,对于其中的第i个基类图像
样本x
i
,利用增强技术对其增强得到并将其添输入到编码器E(
α
)和投影器P(
β
)得到相...

【专利技术属性】
技术研发人员:杨赛周伯俊杨慧胡彬
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1