System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于文本指导傅里叶数据增强的长尾图像识别方法技术_技高网

一种基于文本指导傅里叶数据增强的长尾图像识别方法技术

技术编号:40646903 阅读:5 留言:0更新日期:2024-03-13 21:26
本发明专利技术提供了一种基于文本指导傅里叶数据增强的长尾图像识别方法。所述方法包括:基于填平策略,确定长尾训练数据的分布,即设定需要增强的类别比例,对需要增强的类别后续将生成样本以增加其数量与剩余类别中最小样本数持平;根据得到的训练数据分布,进行样本采样,若采样样本为原始样本,则进行传统数据增强,若采样样本为待生成样本,则采用基于文本指导的傅里叶数据增强方法生成新样本作为补充数据,然后进行传统数据增强;将数据增强后的原始样本或者新样本用于有监督对比学习框架,通过分类和对比损失驱动模型进行学习。本发明专利技术通过对长尾分布中,训练数据稀少的尾部类别,进行针对性的基于文本指导的傅里叶数据增强,生成新的样本来提升尾部类别数据的多样性,有效的增强了端到端的有监督对比学习方法在长尾图像识别上的性能。

【技术实现步骤摘要】

本专利技术属于计算机软件,涉及图像识别技术,具体为一种基于文本指导傅里叶数据增强的长尾图像识别方法


技术介绍

1、现实场景中,数据大多数呈现不平衡的长尾分布,也即是小部分头部类别占据大量的样本,大部分尾部类别只有少量样本。这对依赖于数据的深度学习算法提出了严峻的挑战,导致已有深度学习图像算法在学习过程中被少数头部类别所主导,倾向于将图像识别为头部类别,同时对尾部类别的少量样本过拟合,缺乏泛化性,整体的图像识别性能大幅下降。

2、目前已有的针对长尾分布进行改进的图像识别算法依然存在以下主要问题:过拟合和有效信息损失问题,数据重采样这类方法对头部类别进行降采样,对尾部类别进行过采样,导致对尾部类别过拟合同时头部类别丰富的样本没有得到充分利用;训练流程复杂问题,两阶段的算法需要经过特征学习和分类器学习两个阶段,但是现实应用场景更偏向于简洁高效的单阶段方法;对预训练模型和额外数据的依赖问题,已有的部分方法过于依赖预训练模型的性能,同时对于不同的新数据集均需要从网络上爬取额外数据,具有挑战性和局限性。

3、基于以上分析,本专利技术旨在提供一种简单高效的方法来应对长尾分布问题。本专利技术探索并利用了长尾数据集本身所包含的类别名称文本信息及图像的频域信息,对尾部类别生成新数据作为补充,用于有监督对比学习框架的学习,使得端到端的长尾图像识别模型的性能超越了复杂的两阶段及多专家模型,并且使用更少的训练迭代轮次。


技术实现思路

1、本专利技术的技术方案为:一种基于文本指导傅里叶数据增强的长尾图像识别方法,本方法通过挖掘类别名称文本信息中的语义相关性来指导基于二维傅里叶变换的图像数据增强,对训练数据匮乏的尾部类别生成新的样本,通过有监督对比学习框架对数据进行充分学习,提升不依赖于预训练模型初始化的端到端的长尾图像识别模型的性能。本专利技术深入挖掘并充分利用了数据集本身所包含的有效信息,在增加尾部类别图像数量的同时增加其样本的多样性,用于有监督对比学习框架,使得端到端的长尾图像识别模型超越复杂的两阶段及多专家模型。

2、具体的,本专利技术包括以下步骤:

3、步骤1,训练数据分布确定:首先确定长尾图像数据集中后续将对多少类别进行增强同时补充多少增强样本,即增强后的训练数据分布。为了避免扰乱原始类别分布次序及过度增强,采用填平策略,确定增强后的训练数据的分布。

4、步骤2,类别名称文本语义相关性挖掘:通过已有预训练语言模型提取类别名称文本的嵌入特征,根据嵌入特征计算类别间的语义相似性,从而能够找到与当前类别语义相关或者相似的类别,对后续基于傅里叶的数据增强进行指导。

5、步骤3,候选频域信息准备:鉴于图像的频域相位信息通常包含了图像的高阶语义信息,而图像的频域幅度信息通常为图像的低阶非语义相关信息,例如背景、风格等。因此,数据增强中可以通过图像相位信息和其他图像的幅度信息进行线性结合,从而得到与原图像具有相同语义的新数据。对于长尾数据集,通过二维傅里叶变换,我们可以得到用于新图像生成的候选相位信息和候选幅度信息,同时尾部类别相对于头部类别具有更加丰富的候选幅度信息,为后续尾部类别新数据生成提供了多样的选择。

6、步骤4,数据采样及基于文本指导的在线傅里叶图像增强:根据增强后的训练数据分布对数据进行批量采样,采样的数据中,若为原始数据,则进行传统数据增强,若为待生成数据,则采用基于文本指导的傅里叶图像增强生成对应类别的新数据,然后通过传统数据增强。

7、步骤5,模型构建:构建标准的图像识别模型,识别模型由特征提取器和分类器组成。选择以基础的卷积神经网络作为特征提取器,全连接层作为分类器,随机初始化模型参数。

8、步骤6,基于有监督对比学习的模型训练:对于采样的增强后的原始数据和生成数据,包含了三个不同数据增强程度得到的视图,通过特征提取器提取三个视图的特征,其中一个输入分类器,计算分类损失,另外两个视图的特征进行有监督对比学习,计算有监督对比学习损失,通过这两个损失驱动模型进行学习,使得模型更关注语义相关的信息。

9、步骤7,测试阶段:在平衡分布的测试集上,对预处理后的测试数据,通过训练好的特征提取器提取图像特征,然后通过分类器给出分类结果,计算分类结果与真实标签的匹配率,评估模型性能。

10、具体地,在步骤1中,训练数据分布确定:采用填平策略,对原始数据分布进行修正,即设定增强比例因子α之后,后续将对待增强类别补充数据使其训练样本数量与剩余类别中最小样本数持平,由此得到增强后的训练数据分布,其中待增强类别拥有同样多的训练样本数量,包含有原始数据及待生成数据。

11、具体地,在步骤2中,类别名称文本语义相关性挖掘:对于每个类别,设计了文本提示模板,例如“a photo of the{class}”,然后将类别名称填入模板中的{class}的位置,得到了每个类别的文本描述集c为数据集的类别数。然后通过已有预训练语言模型提取各类别对应的文本描述集的嵌入特征:

12、

13、其中m是各类别文本描述集中文本描述子的个数,ec∈rc×d为类别c的文本嵌入特征。然后基于正则化后的各类别的文本嵌入特征可以计算得到各类别之间的语义相似度,后续将用于指导基于傅里叶的图像生成。

14、具体地,在步骤3中,候选频域信息准备:通过对图像数据进行二维傅里叶变换,将图像分解为频域相位信息和频域幅度信息,为后续基于文本指导的傅里叶图像生成做准备。对每个原始图像xt,通过二维傅里叶变换

15、

16、其中和分别为幅度和相位变换,图像分解后得到图像的频域信息和相位信息由此可以得到用于后续傅里叶图像生成的候选相位数据及候选幅度数据,其中对于类别c,其候选相位数据库包含该类别对应的原始图像数据的相位信息,候选幅度数据库包含除了类别c的原始数据以外的原始数据的幅度信息。因此,尾部类别,具有丰富的候选幅度数据。

17、具体地,在步骤4中,数据采样及基于文本指导的在线傅里叶图像增强:根据增强后的训练数据分布对数据进行批量采样,采样的数据中,若为原始数据,则进行传统数据增强,若为待生成数据,则从该数据对应的类别的候选相位数据中采样一个样本xt,其相位信息作为新数据的相位信息,然后根据步骤2中基于各类别的文本嵌入特征得到的语义相似性,指导算法从与当前类别最语义相似的top k个类别对应的候选幅度数据中采样一个数据与原始样本幅度信息的进行线性结合,获取新样本的幅度信息:

18、

19、其中η为线性结合权重,η~u(0,λ),λ为控制数据增强程度的超参数。然后通过傅里叶逆变换得到生成的新图像数据

20、

21、具体地,在步骤5中,模型构建:以基础的卷积神经网络作为特征提取器,全连接层为分类器,随机初始化模型参数,分类器的参数w∈rd×c,其中d为图像特征的维度,c为数据集的类别数。

22、具体地,在步骤6中,基于有监督对比学习的模型训练:对本文档来自技高网...

【技术保护点】

1.一种基于文本指导傅里叶数据增强的长尾图像识别方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的基于文本指导傅里叶数据增强的长尾图像识别方法,其特征在于,所述训练分布确定具体包括:采用填平策略,对原始数据分布进行修正,即设定增强比例因子α之后,后续将对待增强类别补充数据使其训练样本数量与剩余类别中最小样本数持平,由此得到增强后的训练数据分布,其中待增强类别拥有同样多的训练样本数量,包含有原始数据及待生成数据。

3.如权利要求1所述的基于文本指导傅里叶数据增强的长尾图像识别方法,其特征在于,所述类别名称文本语义相关性挖掘具体包括:对于每个类别,设计了文本提示模板,例如“a photo of the{CLASS}”,然后将类别名称填入模板中的{CLASS}的位置,得到了每个类别的文本描述集C为数据集的类别数。然后通过已有预训练语言模型提取各类别对应的文本描述集的嵌入特征:

4.如权利要求1所述的基于文本指导傅里叶数据增强的长尾图像识别方法,其特征在于,所述候选频域信息准备具体包括:通过对图像数据进行二维傅里叶变换,将图像分解为频域相位信息和频域幅度信息,为后续基于文本指导的傅里叶图像生成做准备。对每个原始图像xt,通过二维傅里叶变换

5.如权利要求1所述的基于文本指导傅里叶数据增强的长尾图像识别方法,其特征在于,所述数据采样及基于文本指导的在线傅里叶图像增强具体包括:根据增强后的训练数据分布对数据进行批量采样,采样的数据中,若为原始数据,则进行传统数据增强,若为待生成数据,则从该数据对应的类别的候选相位数据中采样一个样本xt,其相位信息作为新数据的相位信息,然后基于各类别的文本嵌入特征得到的语义相关性,指导算法从与当前类别最语义相似的Top K个类别对应的候选幅度数据中采样一个数据与原始样本幅度信息的进行线性结合,获取新样本的幅度信息:

6.如权利要求1所述的基于文本指导傅里叶数据增强的长尾图像识别方法,其特征在于,所述基于有监督对比学习的模型训练具体包括:对于批量数据中的原始数据xt或者生成的新图像数据进行不同程度或组合的传统数据增强,得到图像数据对应的三个不同视图,三个视图通过同一个特征提取器之后得到对应的三个特征,以原始数据xt为例,其对应的三个特征为其中通过分类器之后用于计算分类损失,和用于计算有监督对比损失,分类损失采用带概率后处理的损失

...

【技术特征摘要】

1.一种基于文本指导傅里叶数据增强的长尾图像识别方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的基于文本指导傅里叶数据增强的长尾图像识别方法,其特征在于,所述训练分布确定具体包括:采用填平策略,对原始数据分布进行修正,即设定增强比例因子α之后,后续将对待增强类别补充数据使其训练样本数量与剩余类别中最小样本数持平,由此得到增强后的训练数据分布,其中待增强类别拥有同样多的训练样本数量,包含有原始数据及待生成数据。

3.如权利要求1所述的基于文本指导傅里叶数据增强的长尾图像识别方法,其特征在于,所述类别名称文本语义相关性挖掘具体包括:对于每个类别,设计了文本提示模板,例如“a photo of the{class}”,然后将类别名称填入模板中的{class}的位置,得到了每个类别的文本描述集c为数据集的类别数。然后通过已有预训练语言模型提取各类别对应的文本描述集的嵌入特征:

4.如权利要求1所述的基于文本指导傅里叶数据增强的长尾图像识别方法,其特征在于,所述候选频域信息准备具体包括:通过对图像数据进行二维傅里叶变换,将图像分解为频域相位信息和频域幅度信息,为后续基于文...

【专利技术属性】
技术研发人员:赵志诚王伟秋
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1