System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于难度感知数据增强与标签矫正的图像分类方法及系统技术方案_技高网

基于难度感知数据增强与标签矫正的图像分类方法及系统技术方案

技术编号:40542636 阅读:4 留言:0更新日期:2024-03-05 18:58
本发明专利技术涉及图像分类系统技术领域,提供了一种基于难度感知数据增强与标签矫正的图像分类方法及系统。本发明专利技术引入了难度感知数据增强方法,根据样本的学习难度自动划分为简单样本和难样本,并对简单样本采用更多样化的数据增强策略,对难样本采用判别性特征保留的数据增强策略,从而帮助模型学习更丰富的多样性特征及判别性特征,以提升模型分类性能。引入难度感知标签矫正方法,根据样本的历史预测结果计算不确定性得分,挖掘样本集中可能存在的噪声样本,并采用数据驱动的标签矫正器对噪声样本执行标签矫正,进一步提升图像分类模型的准确性和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及图像分类系统,尤其涉及一种基于难度感知数据增强与标签矫正的图像分类方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、图像分类是计算机视觉领域的重要研究方向之一,其目的是通过训练网络模型,使其能够自动识别并将输入图像准确归类到预定义的类别中。由于计算机视觉等领域的快速发展,图像分类在医学影像诊断、自动驾驶、安防监控等领域得到了广泛的应用。然而传统的图像分类方法主要依赖于手工设计的特征提取器和传统的机器学习算法,这些方法在泛化性能等方面受到了限制。随着深度学习的发展,特别是卷积神经网络的出现,图像分类取得了巨大的突破。深度学习方法得益于其能够自动学习图像中的层次化特征,显著提高了模型的分类准确性,并成为图像分类领域的主流方法。

3、目前基于深度学习的图像分类方法通常需要大量且多样性的标注数据来学习数据的特征表示。然而在某些特定领域,如医学图像领域,收集和标注大规模数据即费时又昂贵。同时,由于标注数据的采集可能受到隐私和伦理等方面的限制,导致深度学习在实际应用领域中的应用面临一定的挑战。此外,现有的深度学习方法在进行数据增强时没有考虑到简单样本和难样本的学习难度信息,而是对所有样本采用相同模式的数据增强策略,导致模型对简单样本的利用不够充分,并可能会影响模型对难样本的学习效果。同时,由于难样本位于分类决策边界附近,通常包含多个类别的特征导致难以正确分类,这在自训练过程中不可避免的会引入噪声样本,导致图像分类模型性能下降。

4、当前基于深度学习的图像分类方法面临着一系列挑战和难点,其中标注数据稀缺是导致分类精度较低的一个主要原因。同时,现有数据增强方法对所有样本采用相同的增强策略,没有考虑到简单样本和难样本之间的学习难度差异,同时在自训练过程中会引入噪声样本进一步限制了图像分类模型的精度和鲁棒性。


技术实现思路

1、为了解决上述
技术介绍
中存在的技术问题,本专利技术提供一种基于难度感知数据增强与标签矫正的图像分类方法及系统,本专利技术引入了难度感知数据增强方法,根据样本的学习难度自动划分为简单样本和难样本,并对简单样本采用更多样化的数据增强策略,对难样本采用判别性特征保留的数据增强策略,从而帮助模型学习更丰富的多样性特征及判别性特征,以提升模型分类性能。引入难度感知标签矫正方法,根据样本的历史预测结果计算不确定性得分,挖掘样本集中可能存在的噪声样本,并采用数据驱动的标签矫正器对噪声样本执行标签矫正,进一步提升图像分类模型的准确性和鲁棒性。

2、为了实现上述目的,本专利技术采用如下技术方案:

3、本专利技术的第一个方面提供一种基于难度感知数据增强与标签矫正的图像分类方法。

4、基于难度感知数据增强与标签矫正的图像分类方法,包括:

5、依据图像样本的标签划分为标记样本和未标记样本,以此构建关于标记样本损失和未标记样本损失的历史损失信息记忆库;

6、基于历史损失信息记忆库和对应样本的损失,计算历史损失信息,以此计算历史损失阈值;

7、根据历史损失阈值将标记样本和未标记样本均划分为简单样本和难样本;

8、分别对简单样本和难样本进行数据增强,得到经过数据增强的标记样本和未标记样本,之后采用学生网络提取标记样本的特征图,采用教师网络提取未标记样本的特征图;

9、对数据增强的标记样本进行标签矫正,对数据增强的未标记样本进行伪标记,并加入到标记样本中;

10、基于标签矫正后的标记样本和伪标记处理后的未标记样本,构建损失函数,训练教师网络和学生网络;

11、基于待测试图像,采用已训练的教师网络,得到预测结果。

12、进一步地,所述历史损失信息记忆库的具体过程包括:每个标记样本的历史交叉熵损失和每个未标记样本的历史一致性损失。

13、进一步地,所述历史损失信息为前一轮的历史损失信息与当前轮计算的损失的指数加权平均。

14、进一步地,所述计算历史损失阈值的过程包括:

15、基于标记样本的历史损失信息,采用自动阈值分割方法,获取标记样本的历史损失阈值;

16、基于未标记样本的历史损失信息,采用自动阈值分割方法,获取未标记样本的历史损失阈值。

17、进一步地,所述根据历史损失阈值将标记样本和未标记样本均划分为简单样本和难样本的过程包括:

18、判断标记样本的历史损失信息是否小于标记样本的历史损失阈值;若是,则将对应的标记样本划分为简单样本,否则划分为难样本;

19、判断未标记样本的历史损失信息是否小于未标记样本的历史损失阈值;若是,则将对应的未标记样本划分为简单样本,否则划分为难样本。

20、进一步地,对所述简单样本进行数据增强的过程包括:用位移、改变图像亮度、对比度和饱和度方式的随机组合对简单样本进行增强处理,得到数据增强的标记样本和未标记样本。

21、进一步地,对所述难样本进行数据增强的过程包括:提取每个难样本中的重要特征区域,对无重要特征区域样本进行数据增强,生成新图像,将重要特征区域粘贴回新图像的原位置。

22、进一步地,所述标签矫正的过程包括:构建历史标签记忆队列存储学生网络对所有标记样本计算的最近k轮预测结果;基于最近k轮预测结果,采用信息熵,计算标记样本的不确定性得分;若不确定性得分大于预设阈值,则该标记样本为噪声样本,对噪声样本采用数据驱动的标签矫正器执行标记样本标签的矫正。

23、进一步地,所述伪标记处理的过程包括:对未标记样本采用教师网络计算置信度,将计算的置信度与置信度阈值进行比较,在满足要求时,对未标记样本进行伪标记,并加入到标记样本中。

24、本专利技术的第二个方面提供一种基于难度感知数据增强与标签矫正的图像分类系统。

25、基于难度感知数据增强与标签矫正的图像分类系统,包括:

26、第一样本划分模块,其被配置为:依据图像样本的标签划分为标记样本和未标记样本,以此构建关于标记样本损失和未标记样本损失的历史损失信息记忆库;

27、阈值计算模块,其被配置为:基于历史损失信息记忆库和对应样本的损失,计算历史损失信息,以此计算历史损失阈值;

28、第二样本划分模块,其被配置为:根据历史损失阈值将标记样本和未标记样本均划分为简单样本和难样本;

29、特征向量提取模块,其被配置为:分别对简单样本和难样本进行数据增强,得到经过数据增强的标记样本和未标记样本,之后采用学生网络提取标记样本的特征图,采用教师网络提取未标记样本的特征图;

30、矫正模块,其被配置为:对数据增强的标记样本进行标签矫正,对数据增强的未标记样本进行伪标记,并加入到标记样本中;

31、损失计算模块,其被配置为:基于标签矫正后的标记样本和伪标记处理后的未标记样本,构建损失函数,训练教师网络和学生网络;

32、预测模块,其本文档来自技高网...

【技术保护点】

1.基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,包括:

2.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,所述历史损失信息记忆库的具体过程包括:每个标记样本的历史交叉熵损失和每个未标记样本的历史一致性损失。

3.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,所述历史损失信息为前一轮的历史损失信息与当前轮计算的损失的指数加权平均。

4.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,所述计算历史损失阈值的过程包括:

5.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,所述根据历史损失阈值将标记样本和未标记样本均划分为简单样本和难样本的过程包括:

6.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,对所述简单样本进行数据增强的过程包括:用位移、改变图像亮度、对比度和饱和度方式的随机组合对简单样本进行增强处理,得到数据增强的标记样本和未标记样本。

7.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,对所述难样本进行数据增强的过程包括:提取每个难样本中的重要特征区域,对无重要特征区域样本进行数据增强,生成新图像,将重要特征区域粘贴回新图像的原位置。

8.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,所述标签矫正的过程包括:构建历史标签记忆队列存储学生网络对所有标记样本计算的最近k轮预测结果;基于最近k轮预测结果,采用信息熵,计算标记样本的不确定性得分;若不确定性得分大于预设阈值,则该标记样本为噪声样本,对噪声样本采用数据驱动的标签矫正器执行标记样本标签的矫正。

9.根据权利要求1-8任一项所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,所述伪标记处理的过程包括:对未标记样本采用教师网络计算置信度,将计算的置信度与置信度阈值进行比较,在满足要求时,对未标记样本进行伪标记,并加入到标记样本中。

10.基于难度感知数据增强与标签矫正的图像分类系统,其特征在于,包括:

...

【技术特征摘要】

1.基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,包括:

2.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,所述历史损失信息记忆库的具体过程包括:每个标记样本的历史交叉熵损失和每个未标记样本的历史一致性损失。

3.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,所述历史损失信息为前一轮的历史损失信息与当前轮计算的损失的指数加权平均。

4.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,所述计算历史损失阈值的过程包括:

5.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,所述根据历史损失阈值将标记样本和未标记样本均划分为简单样本和难样本的过程包括:

6.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法,其特征在于,对所述简单样本进行数据增强的过程包括:用位移、改变图像亮度、对比度和饱和度方式的随机组合对简单样本进行增强处理,得到数据增强的标记样本和...

【专利技术属性】
技术研发人员:袭肖明孟令钊宁一鹏陈关忠钱娜李永珂崔培硕聂秀山
申请(专利权)人:山东建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1