当前位置: 首页 > 专利查询>云南大学专利>正文

基于表征数据增强和损失再平衡的长尾图像识别方法技术

技术编号:37402464 阅读:33 留言:0更新日期:2023-04-30 09:30
本发明专利技术公开了基于表征数据增强和损失再平衡的长尾图像识别方法,先长尾图像预处理:然后不同数据集按照不同的不平衡比例进行构造训练集和测试集;构造随机数据增强列表;获得每一个类别的采样权重,通过翻转头部类到尾部类的样本数量加上权重的缩放因子,再将该权重转为一个Tensor向量;将权重作为参数构建反采样训练集和加权损失的权重;建立长尾数据分类模型;构建一阶段的训练范式,使用双边分支结构自适应地从未加权分支转变到加权分支;训练初始,未加权分支学习长尾图像的特征,随着训练轮次的增加逐渐转移到使用重加权分类分支来学习如何对长尾数据进行分类,从而完成原始数据学习长尾图像的表征和对长尾图像进行识别。识别。识别。

【技术实现步骤摘要】
基于表征数据增强和损失再平衡的长尾图像识别方法


[0001]本专利技术属于计算机视觉
,特别是涉及一种基于表征数据增强和损失再平衡的长尾图像识别方法。

技术介绍

[0002]随着近年来人工智能的应用与发展,传统的使用人工进行图像分类方法逐渐被人工智能技术所取代,而在大自然中所有数据均为长尾数据分布,因此若要将人工智能技术落地于真实场景的图像分类中还有需解决问题,例如在野生动物图像分类中,收集拍摄一张稀有动物要等待非常长的时间,对于一些濒临灭绝的动物来说,甚至要好几年才能得到一张照片。但珍稀新动物的识别比数量多的动物的保护价值更大。如果我们的图像分类框架只能在数量多的动物类别上做得好,那么该方法将永远不会具有实际可用性。
[0003]因此长尾图像识别在实际的图像分类中是一个亟待解决的问题,它主要表现为:(1)每个类别所包含的数量分布不均衡使得系统更多关注于样本数量多的类别,忽视样本数量少的类别,造成样本数量少的类别的识别准确率非常低。(2)如果让系统过多的关注于样本数量少的类别,使系统一定程度上增加了样本数量少的类别的准确率,代价则是极大损害了样本呢数量多的类别的准确率。以上两个问题表现出长尾图像分类准确率的“蹊跷板”特性。
[0004]在长尾图像数据分布中,样本数量多的类别,将其定义为头部类,样本数量少的类别,将其定义为尾部类。由于尾部数据的多样性不足导致整个分类系统的训练会被头部类所主导,最终,系统会对头部类的分类具有一定的偏向。
[0005]本文将长尾分布识别的相关研究工作分为三个类别:数据重采样策略,损失重加权以及数据增强策略。
[0006](1)数据重采样策略是一种直接从数据的层面解决长尾分布的预处理操作,目前已经有大量的重采样技术,具体可以细分为:尾部类上采样以及头部类下采样的方法。
[0007]尾部类上采样是指在模型训练时,增加尾部类数据的采样概率,以此来缓解类别之间的不平衡程度。但是这种方式只是简单地重复采样少量的尾部数据,并未引入额外的样本信息,因此对于尾部类识别精度的提升十分有限,并且容易造成模型对于尾部类的过拟合的问题。
[0008]头部类下采样是指在模型训练时,减少头部类数据的采样概率来缓解类别之间的不平衡程度。这类方法同样存在着弊端,即对头部类数据进行下采样的同时会损失头部类的数据,从而丢失了这些样本所包含的重要信息。针对这个问题,一些方法提出制定一些规则或策略来选择性地去除冗余的头部类样本。
[0009]我们针对从现实场景中长尾数据分类过程出发,探究分类框架对于图片数据表征的学习和分类框架中分类器的学习角度出发,实验了分类框架对于长尾数据的多种采样方法。最终发现基于长尾分布的图像分类框架中,造成长尾识别精度较差的主要原因是分类器的学习,并且重采样的策略会影响分类框架学习长尾数据的图像特征。
[0010](2)损失重加权策略是从分类框架对于数据关注度方面解决长尾分布的预处理操作,目前已经有大量的损失重加权技术。损失重加权是通过在算法层面来解决长尾识别的一类方法。通过为不同的数据设计不同的损失大小来构建损失代价矩阵。损失重加权将各类别不同的错误分类数值融合到分类决策中,目的是引导分类器调整对错误分类的尾部类的权重。具体地,由于尾部类数据较少﹐尾部数据往往很容易被忽略﹐很容易被识别错误,因此,应该给予尾部类以更大的损失权重让分类框架更加关注于尾部类。与数据重采样策略相比,损失重加权能够将所有的数据充分利用,并且该类方法不会引入任何人工构造的样本,因此不会在训练中引入噪音。
[0011](3)数据增强策略:数据增强目的在于利用一组数据增强技术,以增强系统训练数据集的大小和质量。在长尾学习中,已经探索了两种数据增强方法,包括基于迁移的增强和常规(非转移)增强。
[0012]尽管研究人员在长尾数据识别领域上已经取得了一些成果,但由于长尾数据的极端不平衡以及尾部类样本的缺少,使得现有技术并不成熟。主要存在以下几方面缺陷。想要提升尾部类的识别效率且不影响模型对于头部类的识别性能和提取尾部类可判别性特征极度困难。(1)在长尾图像分类中,在模型初始训练阶段就使用损失重加权和样本重采样则会改变原始数据的原始空间分布,造成分布扭曲,导致模型过拟合。(2)多阶段的训练方式困难且复杂对于后期模型部署较为困难也不利于模型的复用。(3)大多长尾图像识别的任务都是基于多阶段训练范式的模型,对于表征能力的学习都是基于交叉熵损失进行,但其性能还是有巨大的提升空间。
[0013]因此,如何研发一个简单且能有效提升尾部类识别准确率和保持头部类识别准确率的长尾图像分类框架是一个亟待解决的问题。

技术实现思路

[0014]本专利技术实施例的目的在于提供一种基于表征数据增强和损失再平衡的长尾图像识别方法,可有效解决系统过多关注于头类导致尾部类识别准确率降低的问题,并且还能在提升尾部类识别准确率的情况下,保持头部类识别准确率。
[0015]为解决上述技术问题,本专利技术所采用的技术方案是,基于表征数据增强和损失再平衡的长尾图像识别方法,按照以下步骤进行:
[0016]步骤S1,长尾图像预处理:
[0017]步骤S2,不同数据集按照不同的不平衡比例进行构造训练集和测试集,在长尾数据分布中训练集的不平衡率为[500,256,100,50,10],利用python分别构造不同比例的训练集,测试集则保持平衡;
[0018]步骤S3,构造随机数据增强列表,使用python中的transform工具包构造需要使用的随机增强列表,数据增强列表的顺序为图片随机裁剪、图片随机翻转、改变图像的属性,最后进行归一化;
[0019]步骤S4,获得每一个类别的采样权重,通过翻转头部类到尾部类的样本数量加上权重的缩放因子,再将该权重转为一个Tensor向量;其中,计算每个类别的权重表达式如下:
[0020][0021][0022]其中,N代表权重的缩放因子,W表示类别的权重;公式(1)计算得出每个类别样本数量占总体样本数量的权重并赋值给a,用于公式(2)计算每个类别的权重;
[0023]步骤S5,将权重作为参数使用pytorch工具包构建反采样训练集和加权损失的权重;
[0024]步骤S6,建立长尾数据分类模型;
[0025]步骤S7,构建一阶段的训练范式,使用双边分支结构自适应地从未加权分支转变到加权分支;训练初始,未加权分支学习长尾图像的特征,随着训练轮次的增加逐渐转移到使用重加权分类分支来学习如何对长尾数据进行分类,从而完成原始数据学习长尾图像的表征和对长尾图像进行识别。
[0026]进一步地,所述步骤S1具体为:调用Pytorch工具包,将长尾图像的尺寸大小调整为224
×
224,调整后的图像进行归一化处理,并作为图像数据集。
[0027]进一步地,所述步骤S6具体包括:
[0028]S61,运用ResNet作为主干网络,参考对比学习中的内容,在ResNet上增加预测头、对比头;...

【技术保护点】

【技术特征摘要】
1.基于表征数据增强和损失再平衡的长尾图像识别方法,其特征在于,按照以下步骤进行:步骤S1,长尾图像预处理:步骤S2,不同数据集按照不同的不平衡比例进行构造训练集和测试集,在长尾数据分布中训练集的不平衡率为[500,256,100,50,10],利用python分别构造不同比例的训练集,测试集则保持平衡;步骤S3,构造随机数据增强列表,使用python中的transform工具包构造需要使用的随机增强列表,数据增强列表的顺序为图片随机裁剪、图片随机翻转、改变图像的属性,最后进行归一化;步骤S4,获得每一个类别的采样权重,通过翻转头部类到尾部类的样本数量加上权重的缩放因子,再将该权重转为一个Tensor向量;其中,计算每个类别的权重表达式如下:的缩放因子,再将该权重转为一个Tensor向量;其中,计算每个类别的权重表达式如下:其中,N代表权重的缩放因子,W表示类别的权重;公式(1)计算得出每个类别样本数量占总体样本数量的权重并赋值给a,用于公式(2)计算每个类别的权重;步骤S5,将权重作为参数使用pytorch工具包构建反采样训练集和加权损失的权重;步骤S6,建立长尾数据分类模型;步骤S7,构建一阶段的训练范式,使用双边分支结构自适应地从未加权分支转变到加权分支;训练初始,未加权分支学习长尾图像的特征,随着训练轮次的增加逐渐转移到使用重加权分类分支来学习如何对长尾数据进行分类,从而完成原始数据学习长尾图像的表征和对长尾图像进行识别。2.根据权利要求1所述的基于表征数据增强和损失再平衡的长尾图像识别方法,其特征在于,所述步骤S1具体为:调用Pytorch工具包,将长尾图像的尺寸大小调整为224
×
224,调整后的图像进行归一化处理,并作为图像数据集。3.根据权利要求1所述的基于表征数据增强和损失再平衡的长尾图像识别方法,其特征在于,所述步骤S6具体包括:S61,运用ResNet作为主干网络,参考对比学习中的内容,在ResNet上增加预测头、对比头;S62,在构造好的训练集和反采样训练集进行随机两次数据增强,生成四个训练集合;S63,将训练集的图片及标签和反采样训练集的图片及标签先进行Mix

up数据混合,再将训练集的图片及标签和反采样训练集的图片及标签进行Cut

mix数据混合,最终生成两组使用不同混合类型的两组图像混合样本;S64,构建自监督学习分支,通过全局图片混合的数据增强Mix

up和局部图片混合的数据增强Cut

mix构造出两组图片,再由特征提取器的映射头分别获得Mix

up增强后的整组图片特征映射h
g
和Cut

mix增强后的整组图片特征映射h
l
,然后对比头将h
g
和h
l
表示转换为输出u
g
和u
l
,最小化它们的负余弦相似性,表达式如下:
其中||
·
||是L2归一化,h
g
表示Mix

up增强后的整组图片被特征提取器提取的特征,h
l
表示Cut

mix增强后的整组图片被特征提取器提取的特征,u
g
和u
l
分别表示将特征h
g
和h
l
经过线性空间映射后的图片特征;遵循Sim

Siam的架构,使用停止梯度操作来防止崩溃,SimSiam损失函数定义为:其中sg(h
l
)、sg(h
g
)分别为经过Cut

mix、Mix

up数据混合后再由特征提取器提取特征,将提取特征输入到映射头进行特征映射后的输出;最终构建了两组使用训练集和反采样集的图片;在计算未加权分类分支和加权分类分支的损失都基于交叉熵损失,区别在于加权分支的交叉熵使用公式(1)和(2)得出的类别权重加权到交叉熵损失;而未加权分支则仅使用交叉熵计算每个类别的交叉熵损失;因此在计算未加权分类...

【专利技术属性】
技术研发人员:杨云杨鹏杜飞
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1