基于表征数据增强和损失再平衡的长尾图像识别方法技术

技术编号：37402464 阅读：40 留言：0更新日期：2023-04-30 09:30

本发明专利技术公开了基于表征数据增强和损失再平衡的长尾图像识别方法，先长尾图像预处理：然后不同数据集按照不同的不平衡比例进行构造训练集和测试集；构造随机数据增强列表；获得每一个类别的采样权重，通过翻转头部类到尾部类的样本数量加上权重的缩放因子，再将该权重转为一个Tensor向量；将权重作为参数构建反采样训练集和加权损失的权重；建立长尾数据分类模型；构建一阶段的训练范式，使用双边分支结构自适应地从未加权分支转变到加权分支；训练初始，未加权分支学习长尾图像的特征，随着训练轮次的增加逐渐转移到使用重加权分类分支来学习如何对长尾数据进行分类，从而完成原始数据学习长尾图像的表征和对长尾图像进行识别。识别。识别。

全部详细技术资料下载

【技术实现步骤摘要】
基于表征数据增强和损失再平衡的长尾图像识别方法

[0001]本专利技术属于计算机视觉
，特别是涉及一种基于表征数据增强和损失再平衡的长尾图像识别方法。

技术介绍

[0002]随着近年来人工智能的应用与发展，传统的使用人工进行图像分类方法逐渐被人工智能技术所取代，而在大自然中所有数据均为长尾数据分布，因此若要将人工智能技术落地于真实场景的图像分类中还有需解决问题，例如在野生动物图像分类中，收集拍摄一张稀有动物要等待非常长的时间，对于一些濒临灭绝的动物来说，甚至要好几年才能得到一张照片。但珍稀新动物的识别比数量多的动物的保护价值更大。如果我们的图像分类框架只能在数量多的动物类别上做得好，那么该方法将永远不会具有实际可用性。
[0003]因此长尾图像识别在实际的图像分类中是一个亟待解决的问题，它主要表现为：(1)每个类别所包含的数量分布不均衡使得系统更多关注于样本数量多的类别，忽视样本数量少的类别，造成样本数量少的类别的识别准确率非常低。(2)如果让系统过多的关注于样本数量少的类别，使系统一定程度上增加了样本数量少的...

【技术保护点】

【技术特征摘要】
1.基于表征数据增强和损失再平衡的长尾图像识别方法，其特征在于，按照以下步骤进行：步骤S1，长尾图像预处理：步骤S2，不同数据集按照不同的不平衡比例进行构造训练集和测试集，在长尾数据分布中训练集的不平衡率为[500,256,100,50,10]，利用python分别构造不同比例的训练集，测试集则保持平衡；步骤S3，构造随机数据增强列表，使用python中的transform工具包构造需要使用的随机增强列表，数据增强列表的顺序为图片随机裁剪、图片随机翻转、改变图像的属性，最后进行归一化；步骤S4，获得每一个类别的采样权重，通过翻转头部类到尾部类的样本数量加上权重的缩放因子，再将该权重转为一个Tensor向量；其中，计算每个类别的权重表达式如下：的缩放因子，再将该权重转为一个Tensor向量；其中，计算每个类别的权重表达式如下：其中，N代表权重的缩放因子，W表示类别的权重；公式(1)计算得出每个类别样本数量占总体样本数量的权重并赋值给a，用于公式(2)计算每个类别的权重；步骤S5，将权重作为参数使用pytorch工具包构建反采样训练集和加权损失的权重；步骤S6，建立长尾数据分类模型；步骤S7，构建一阶段的训练范式，使用双边分支结构自适应地从未加权分支转变到加权分支；训练初始，未加权分支学习长尾图像的特征，随着训练轮次的增加逐渐转移到使用重加权分类分支来学习如何对长尾数据进行分类，从而完成原始数据学习长尾图像的表征和对长尾图像进行识别。2.根据权利要求1所述的基于表征数据增强和损失再平衡的长尾图像识别方法，其特征在于，所述步骤S1具体为：调用Pytorch工具包，将长尾图像的尺寸大小调整为224
×
224，调整后的图像进行归一化处理，并作为图像数据集。3.根据权利要求1所述的基于表征数据增强和损失再平衡的长尾图像识别方法，其特征在于，所述步骤S6具体包括：S61，运用ResNet作为主干网络，参考对比学习中的内容，在ResNet上增加预测头、对比头；S62，在构造好的训练集和反采样训练集进行随机两次数据增强，生成四个训练集合；S63，将训练集的图片及标签和反采样训练集的图片及标签先进行Mix
‑
up数据混合，再将训练集的图片及标签和反采样训练集的图片及标签进行Cut
‑
mix数据混合，最终生成两组使用不同混合类型的两组图像混合样本；S64，构建自监督学习分支，通过全局图片混合的数据增强Mix
‑
up和局部图片混合的数据增强Cut
‑
mix构造出两组图片，再由特征提取器的映射头分别获得Mix
‑
up增强后的整组图片特征映射h
g
和Cut
‑
mix增强后的整组图片特征映射h
l
，然后对比头将h
g
和h
l
表示转换为输出u
g
和u
l
，最小化它们的负余弦相似性，表达式如下：
其中||
·
||是L2归一化，h
g
表示Mix
‑
up增强后的整组图片被特征提取器提取的特征，h
l
表示Cut
‑
mix增强后的整组图片被特征提取器提取的特征，u
g
和u
l
分别表示将特征h
g
和h
l
经过线性空间映射后的图片特征；遵循Sim
‑
Siam的架构，使用停止梯度操作来防止崩溃，SimSiam损失函数定义为：其中sg(h
l
)、sg(h
g
)分别为经过Cut
‑
mix、Mix
‑
up数据混合后再由特征提取器提取特征，将提取特征输入到映射头进行特征映射后的输出；最终构建了两组使用训练集和反采样集的图片；在计算未加权分类分支和加权分类分支的损失都基于交叉熵损失，区别在于加权分支的交叉熵使用公式(1)和(2)得出的类别权重加权到交叉熵损失；而未加权分支则仅使用交叉熵计算每个类别的交叉熵损失；因此在计算未加权分类...

【专利技术属性】
技术研发人员：杨云，杨鹏，杜飞，
申请(专利权)人：云南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人