当前位置: 首页 > 专利查询>中山大学专利>正文

基于双头深度学习的类别不平衡图像分类方法及装置制造方法及图纸

技术编号:33207377 阅读:10 留言:0更新日期:2022-04-24 00:56
本发明专利技术公开了一种基于双头深度学习的类别不平衡图像分类方法及装置,方法为:获取目标图像并进行多类中心划分,得到新标签;构建双头图像分类模型;输入特征提取器得到通道特征向量,和目标图像原始标签的通道进行计算,得到正则化损失;输入特征提取器得到分类特征向量,并输入分类器中得到分类概率;结合新标签进行计算,得到分类损失;将正则化损失和分类损失结合作为模型的总损失函数进行训练,获得目标图像的分类结果。本发明专利技术通过双头分支结构,在特征提取器上提取通道特征向量和分类特征向量,分类特征向量经过分类器后得到分类概率,再计算正则化损失和分类损失,二者结合获得模型的总损失函数,提高了模型的性能和图像分类的准确性。分类的准确性。分类的准确性。

【技术实现步骤摘要】
基于双头深度学习的类别不平衡图像分类方法及装置


[0001]本专利技术属于图像处理的
,具体涉及一种基于双头深度学习的类别不平衡图像分类方法及装置。

技术介绍

[0002]在传统的分类和识别任务中,训练数据的分布往往都受到了人工的均衡,即不同类别的样本数量无明显差异。一个均衡的数据集固然大大简化了对算法鲁棒性的要求,也一定程度上保障了所得模型的可靠性,但随着关注类别的逐渐增加,维持各个类别之间均衡就将带来指数增长的采集成本。比如,如果要做一个动物分类数据集,猫狗等常见数据可以轻轻松松的采集数以百万张的图片,但是考虑到数据集的均衡,也必须给雪豹等罕见动物采集等量的样本,而随着类别稀有度的增加,其采集成本往往呈指数增长。
[0003]深度神经网络在各种图像分类上都表现出了优越的性能,然而,在实际场景中可以观察到,训练样本的类别之间不平衡,这样训练的分类器往往会偏向于具有较大训练样本的多数类别,而少数类别在分类器训练和推理中往往在某种程度上会被忽略。过去已经提出了多种方法来处理此类类别不平衡的问题。其中一种研究方法尝试在模型训练期间重新平衡类,例如,通过重新采样以获得每个类的相似数量的训练数据,或者通过在训练损失中重新加权类;使用类重新平衡策略,分类器将在模型训练期间更公平地处理多数类和少数类。然而,基于来自少数类的非常有限的训练样本的类重新平衡往往会导致少数类的模型过度拟合,进一步使对应的分类器泛化性差。而另一种研究方法试图直接提高泛化性分类器,例如,通过使用大型数据集ImageNet使用预训练分类器的backbone(主干网络)进行转移学习,或者通过使用各种增强技术(如Mixup及其扩展Remix和Balanced

Mixup)增加训练数据的数量,特别是针对少数类;除了数据空间中的增强,特征空间中少数类的增强也有助于缓解过拟合问题。
[0004]显然,可以将上述两组方法结合起来处理类不平衡问题。例如,最先进的两阶段训练策略首先训练一个更具泛化性的特征提取器,然后使用重新平衡策略微调分类器头。两阶段策略进一步扩展为累积学习策略BBN,其中第一个特征提取器学习平滑地转移到类重新平衡过程。另一个策略是MiSLAS,它在分类器训练期间结合了损失加权和Mixup增强。
[0005]现有技术主要通过改进训练过程来缓解类别不平衡的问题,但是由于数据集中实际包含的少数类样本少,即使采用重采样或者损失加权,也不能完全矫正,反而导致模型对少样本类的过度拟合从而没法提升性能。

技术实现思路

[0006]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于双头深度学习的类别不平衡图像分类方法及装置,本方法提出一个新颖的双头分支结构,通过在模型的特征提取器上进行特征平衡以及在分类器上进行类平衡,同时保持对所有类别的公平性,以帮助模型更好地训练,提高模型性能以及提高整体召回率。
[0007]为了达到上述目的,本专利技术采用以下技术方案:
[0008]一方面,本专利技术提供了一种基于双头深度学习的类别不平衡图像分类方法,包括下述步骤:
[0009]获取目标图像并进行多类中心划分,得到新标签;
[0010]构建双头图像分类模型;所述双头图像分类模型包括特征提取器和分类器;
[0011]将获得新标签的目标图像输入所述特征提取器得到通道特征向量,和目标图像原始标签的通道进行计算,得到正则化损失;
[0012]将获得新标签的目标图像输入所述特征提取器得到分类特征向量,并输入分类器中,得到分类概率;结合分类特征向量、分类概率及新标签进行计算,得到分类损失;
[0013]将正则化损失和分类损失结合作为所述双头图像分类模型的总损失函数进行训练,获得目标图像的分类结果。
[0014]作为优选的技术方案,所述进行多类中心划分,得到新标签,具体为:
[0015]对于目标图像的原始类别,将原始类别中的图像数量按照降序重新排序;
[0016]设n
j
表示重新排序后的第j类的图像数量,图像数量最多的类别被划分为u个簇,图像数量最少的类别被划分为单个簇,则第j个类根据图像数量的线性关系划分为u
j
个簇,计算公式为:
[0017][0018]其中,n
C
表示重新排序后最大类的图像数量,n1表示重新排序后的最小类的图像数量,表示向下取整;
[0019]根据重新排序后计算得到的簇数量,目标图像共获得个簇;
[0020]将每个簇作为一个新的类别,对K个新类别进行分类,得到新标签。
[0021]作为优选的技术方案,所述对K个新类别进行分类,得到新标签,具体为:
[0022]对属于同一原始类别且属于不同新类别的训练图像设计软标签;
[0023]设一目标图像属于原始类别第i个类且属于第u
j
个新类别之一;
[0024]在K个新类别中,将该目标图像属于第k个新类别的概率设为a,则该目标图像属于原始类别且属于不同新类别的概率为:
[0025][0026]其中,u
j
>1;属于不同原始类的概率设为0;
[0027]获得每个新类别的软标签作为新标签。
[0028]作为优选的技术方案,所述得到通道特征向量,具体为:
[0029]对于新标签目标图像中的每一张图像,对应的原始标签为y∈{1,2,

,C},C为类别数量;
[0030]输入双头图像分类模型的特征提取器中进行特征提取,得到特征图F∈R
N
×
H
×
W
,其中N为图像特征的通道数量,H为图像特征的高,W为图像特征的宽;
[0031]在通道维度将N个通道进行分组,分组数量与类别数量C相同,使每个类别得到一定的通道数,得到通道特征向量;
[0032]所述通道特征向量是通过卷积和全局平局池化操作来实现,公式为:
[0033]z
i
=GAP(Conv
i
(F
i
))
[0034]其中,F
i
是分组后第i类的特征图,Conv
i
是对分组后第i类进行的卷积操作,GAP是全局平均池化。
[0035]作为优选的技术方案,所述得到正则化损失,具体为:
[0036]将得到的通道特征向量与目标图像的原始标签进行交叉熵损失计算,公式为:
[0037][0038]其中,g是softmax操作,l
CE
是交叉熵损失操作,y
i
表示第i类的原始标签。
[0039]作为优选的技术方案,所述得到分类特征向量,具体为:
[0040]对于新标签目标图像中的每一张图像,对应的新标签为y
n
∈{1,2,

,K},K为新的类别数量;
[0041]输入双头图像分类模型的特征提取器中进行特征提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于双头深度学习的类别不平衡图像分类方法,其特征在于,包括下述步骤:获取目标图像并进行多类中心划分,得到新标签;构建双头图像分类模型;所述双头图像分类模型包括特征提取器和分类器;将获得新标签的目标图像输入所述特征提取器得到通道特征向量,和目标图像原始标签的通道进行计算,得到正则化损失;将获得新标签的目标图像输入所述特征提取器得到分类特征向量,并输入分类器中,得到分类概率;结合分类特征向量、分类概率及新标签进行计算,得到分类损失;将正则化损失和分类损失结合作为所述双头图像分类模型的总损失函数进行训练,获得目标图像的分类结果。2.根据权利要求1所述的基于双头深度学习的类别不平衡图像分类方法,其特征在于,所述进行多类中心划分,得到新标签,具体为:对于目标图像的原始类别,将原始类别中的图像数量按照降序重新排序;设n
j
表示重新排序后的第j类的图像数量,图像数量最多的类别被划分为u个簇,图像数量最少的类别被划分为单个簇,则第j个类根据图像数量的线性关系划分为u
j
个簇,计算公式为:其中,n
C
表示重新排序后最大类的图像数量,n1表示重新排序后的最小类的图像数量,表示向下取整;根据重新排序后计算得到的簇数量,目标图像共获得个簇;将每个簇作为一个新的类别,对K个新类别进行分类,得到新标签。3.根据权利要求2所述的基于双头深度学习的类别不平衡图像分类方法,其特征在于,所述对K个新类别进行分类,得到新标签,具体为:对属于同一原始类别且属于不同新类别的训练图像设计软标签;设一目标图像属于原始类别第i个类且属于第u
j
个新类别之一;在K个新类别中,将该目标图像属于第k个新类别的概率设为a,则该目标图像属于原始类别且属于不同新类别的概率为:其中,u
j
>1;属于不同原始类的概率设为0;获得每个新类别的软标签作为新标签。4.根据权利要求3所述的基于双头深度学习的类别不平衡图像分类方法,其特征在于,所述得到通道特征向量,具体为:对于新标签目标图像中的每一张图像,对应的原始标签为y∈{1,2,

,C},C为类别数量;输入双头图像分类模型的特征提取器中进行特征提取,得到特征图F∈R
N
×
H
×
W
,其中N为图像特征的通道数量,H为图像特征的高,W为图像特征的宽;
在通道维度将N个通道进行分组,分组数量与类别数量C相同,使每个类别得到一定的通道数,得到通道特征向量;所述通道特征向量是通过卷积和全局平局池化操作来实现,公式为:z
i
=GAP(Conv
i
(F
i
))其中,F
i
是分组后第i类的特征图,Conv
i
是对分组后第i类进行的卷积操作,GAP是全局...

【专利技术属性】
技术研发人员:王瑞轩陆慧娟
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1