System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于孪生双分类混合模态输入的带噪声标签图像分类方法技术_技高网
当前位置: 首页 > 专利查询>新疆大学专利>正文

基于孪生双分类混合模态输入的带噪声标签图像分类方法技术

技术编号:40213119 阅读:4 留言:0更新日期:2024-02-02 22:22
本发明专利技术公开了基于孪生双分类混合模态输入的带噪声标签图像分类方法,涉及计算机视觉和人工智能技术领域。包括以下步骤:步骤1、获取带噪声标签的数据集,即样本总数;步骤2、进行本地样本选择,对数据集进行预处理,经过孪生二分类网络筛选,获得干净标签样本和噪声标签样本;步骤3、进行在线样本选择,数据集经过本地选择后,每个历元训练开始前再对数据集进行一次高斯混合模型选择;步骤4、进行半监督训练,本地选择和在线选择后,每个样本的标签预测概率按照混合双模态输入规则进行半监督训练;步骤5、对上述区分后的样本分类通过准确率、精确率、召回率、F1分数来评估结果,本发明专利技术的有益效果在于:能够有效减少噪声标签对训练的影响。

【技术实现步骤摘要】

本专利技术主要涉及计算机视觉和人工智能,具体是基于孪生双分类混合模态输入的带噪声标签图像分类方法


技术介绍

1、标签噪声在很多高端、精准的实际应用场景中广泛存在。在无人驾驶场景中,模型需要在复杂场景中识别不同目标,例如交通标识、行驶车辆和行人等,所以,模型的训练需要大量标注的数据,然而如此大规模复杂数据的标注容易出现错误标注的情况。在遥感(rs)场景分类或检索任务中,由于地理位置/配准误差、土地覆被变化以及标注者知识背景的多样性等原因,在大规模rs基准档案中,此类标注存在噪声(也称为标签噪声)是不可避免的。在高光谱图像(hsi)分析中,标签信息是一种稀缺资源,不可避免地会受到人为和非人为因素的影响,从而产生大量的标签噪声,虽然目前大多数监督hsi分类方法都取得了较好的分类效果,但当训练样本中含有标签噪声时,其分类性能会急剧下降。在医学诊断过程中,由于病人提供的发病原因描述不详细,检测项目不全面,专家的专业知识或者主观意识容易导致错误诊断。因此,针对标签噪声问题提出对带噪声标签鲁棒的学习算法对实际场景应用意义深远。

2、根据对标签噪声干扰的不同处理方式可以将现有方法大致分成两大类,一类是根据噪声模式针对性提出的概率调整方法,另一类是利用深度神经网络的预测方法。在第一类方法中,研究人员希望可以通过对损失函数的调整,来达到参数更新过程中对噪声标签的抑制。第二类方法希望通过利用网络的预测结果,从带噪声标签数据集中将干净标签样本筛选出来,用选择的干净标签样本对网络进行训练。

3、概率调整法主要存在的技术缺陷是根据噪声的模型进行方法设计,针对性的提出不同的概率调整方法,但是在实际中要想精确获取噪声的模型是十分困难的,尤其是大型数据集,几乎不可能完成,因此,研究人员在对噪声模型建模时通常会采用一些简化的处理方法,然而简化不仅降低了模型的泛化性能,同时在一些存在复杂噪声情况下效果也不好。样本选择法的主要技术缺陷是在对数据集进行划分时多采用单一阈值法,将数据集根据损失值或预测概率值的大小,分成带噪声标签样本和带干净标签样本,图1a所示。由于带噪声标签样本与干净标签样本的分布非常相似,且中间部分噪声标签样本和干净标签样本存在一定区域的重叠,如图1所示,如果只是划分成两部分,一些带噪声标签的样本被划分到干净标签样本集中,这会导致后续学习中同样面临较大的噪声标签过拟合,一些干净标签样本被划分到噪声标签样本集中,易导致有用信息的丢失,由于数据收集本就成本高昂,舍弃这部分有用信息会造成一定程度的浪费,重叠区域干净标签样本的平均预测概率较小,在特征信息上比干净标签样本区更具代表性,对训练模型的价值也更高,再者舍弃这部分样本可能会因类别不均衡导致泛化性能下降。

4、如上所述,如果有一个数据集包含k个类别和n个样本,是d维数据空间中的一个样本,是与xi对应的真实标签,(xi,yi)满足独立同分步条件。分类的任务是获得一个的映射函数f(·;θ),使参数θ的经验风险最小化。

5、

6、其中l表示损失函数。

7、随着数据集的不断增大,在数据收集的过程中不可避免地会在数据集中引入各种噪声,使得原本干净的数据集转换成了带噪声标签的数据集中的代表可能带有噪声的标签。如果在数据集上进行标准的分类训练,本专利技术会得到某一时刻小批量的公式:

8、

9、其中b为包含的样本个数。

10、在上沿着最小化的方向对θt参数进行更新,则有:

11、

12、其中η为学习率。

13、从公式(3)可以看出,使用数据集训练时,网络不再具有噪声容忍性,很容易对噪声标签过拟合,导致泛化性能降低,因此如何最大化的减少噪声标签对训练的影响具有重要的意义。


技术实现思路

1、为解决现有技术的不足,本专利技术提供了基于孪生双分类混合模态输入的带噪声标签图像分类方法,它能够有效减少噪声标签对训练的影响。

2、本专利技术为实现上述目的,通过以下技术方案实现:

3、基于孪生双分类混合模态输入的带噪声标签图像分类方法,包括以下步骤:

4、步骤1、获取带噪声标签的数据集,即样本总数;

5、步骤2、进行本地样本选择,对数据集进行预处理,经过孪生二分类网络筛选,获得干净标签样本和噪声标签样本;

6、步骤3、进行在线样本选择,数据集经过本地选择后,每个历元训练开始前再对数据集进行一次高斯混合模型选择;

7、步骤4、进行半监督训练,本地选择和在线选择后,每个样本的标签预测概率按照混合双模态输入规则进行半监督训练;

8、步骤5、对上述区分后的样本分类通过准确率、精确率、召回率、f1分数来评估结果,参数的计算公式如下:

9、

10、

11、

12、

13、上面式子中acc、precision、recall、f1 score分别代表准确率、精确率、召回率、f1分数,tp、tn、fp和fn分别代表真阳性、真阴性、假阳性和假阴性。

14、在步骤2中,首先将带噪声标签数据集送入孪生网络中进行个历元的训练,在训练过程中记录每个样本的预测概率,将所有历元中每个样本的预测概率求平均后按大小排序,将平均预测概率值大于t2的划分到干净标签样本区小于t1的划分到噪声标签样本区介于阈值t1和t2划分到硬标签样本区

15、为了将硬标签样本中的干净标签样本和噪声标签样本区分开来,引入了孪生网络从孪生网络获得干净标签样本噪声标签样本和硬标签样本后,将和混合,得到混合样本集用孪生网络对样本集进行m个历元的训练,在训练过程中同样记录每个样本的预测概率,m个历元训练后,对每个样本求平均预测概率后按大小进行排序,同样将平均预测概率值大于t2的划分到干净标签样本区平均预测概率值小于t1的划分到噪声标签样本区介于t1和t2划分到硬标签样本区因为中的样本来自孪生网络划分后的干净标签样本和噪声标签样本因此数据集可以看作是一个在干净的数据集中加入了噪声的获得的,这等于事先已经知道了数据集中每个样本的真实标签;据此,就很容易知道,在孪生网络训练后硬标签样本区中具体都包含了哪些干净标签样本和噪声标签样本

16、因为已经知道了中样本的真实标签情况,此时可以将看成是一个二分类数据集,带噪声标签样本的是一类,带干净标签样本的是另一类,其中每个样本的特征向量就是样本在m个历元训练过程中记录的预测向量的平均值;我们使用数据集对一个简单的多层二分类网络进行有监督训练,再用训练好的网络对硬标签样本集进行测试,将中的干净标签样本和噪声标签样本区分开来,最终将原数据集分成干净标签样本集和噪声标签样本集在将数据集划分成三部分后,利用了数据集本身包含的噪声对进行划分。

17、在步骤3中,把训练时在每个历元都重新获得一次的样本信息称为在线信息,将其与孪生二分类网络获得的本地信息一起进行组合输入,孪生二分类网络获得的每个样本的干净概率用表示,其中的计算方法公式如下,用高本文档来自技高网...

【技术保护点】

1.基于孪生双分类混合模态输入的带噪声标签图像分类方法,包括以下步骤:

2.根据权利1所述的基于孪生双分类混合模态输入的带噪声标签图像分类方法,其特征在于:在步骤2中,首先将带噪声标签数据集送入孪生网络中进行个历元的训练,在训练过程中记录每个样本的预测概率,将所有历元中每个样本的预测概率求平均后按大小排序,将平均预测概率值大于T2的划分到干净标签样本区小于T1的划分到噪声标签样本区介于阈值T1和T2划分到硬标签样本区

3.根据权利要求1所述的基于孪生双分类混合模态输入的带噪声标签图像分类方法,其特征在于:在步骤3中,把训练时在每个历元都重新获得一次的样本信息称为在线信息,将其与孪生二分类网络获得的本地信息一起进行组合输入,孪生二分类网络获得的每个样本的干净概率用表示,其中的计算方法公式如下,用高斯混合模型得到每个样本的干净概率如上所述,将和按照Mixup的混合规则进行输入的方法称为双模态混合输入:

4.根据权利要求1所述的基于孪生双分类混合模态输入的带噪声标签图像分类方法,其特征在于:步骤2在半监督训练过程中,噪声标签样本被看作无标签样本,利用干净标签样本对其进行校正。

...

【技术特征摘要】

1.基于孪生双分类混合模态输入的带噪声标签图像分类方法,包括以下步骤:

2.根据权利1所述的基于孪生双分类混合模态输入的带噪声标签图像分类方法,其特征在于:在步骤2中,首先将带噪声标签数据集送入孪生网络中进行个历元的训练,在训练过程中记录每个样本的预测概率,将所有历元中每个样本的预测概率求平均后按大小排序,将平均预测概率值大于t2的划分到干净标签样本区小于t1的划分到噪声标签样本区介于阈值t1和t2划分到硬标签样本区

3.根据权利要求1所述的基于孪生双分类混合模态输入的带噪声标签图...

【专利技术属性】
技术研发人员:汪烈军李艳红郭治卿李君许良辉
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1