当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于异质集成的标签噪声纠正方法技术

技术编号:26033707 阅读:45 留言:0更新日期:2020-10-23 21:11
本发明专利技术提出了一种基于异质集成的标签噪声纠正方法,在本发明专利技术的方法中,数据集D经过P轮K折分层交叉划分,M种异质分类器预测,两轮多数投票集成预测结果,对数据集D中的每个样本均进行了类别标签的更新,实现噪声标签纠正的更新。本发明专利技术适用于具有分布不平衡特点的数据集中的标签噪声处理,适用于各种类型的分类器,具有较好的通用性;可独立完成类别标签纠正过程;循环了P轮分层交叉划分,保证每个交叉划分子集具有和原始样本集相同的不平衡程度,且减少了数据集单次交叉划分的偶然性对分类器的影响;通过异质集成方式更新样本的类别标签,可以减轻某种分类器会受数据类型的负面影响。

【技术实现步骤摘要】
一种基于异质集成的标签噪声纠正方法
本专利技术涉及数据处理领域,特别涉及一种基于异质集成的标签噪声纠正方法。
技术介绍
在机器学习领域中,常见的一类工作是使用带标签数据训练神经网络实现分类、回归或其他目的,这种训练模型学习规律的方法一般称之为监督学习。在监督学习中,训练样本通常由一组特征和一个类别标签组成,样本的质量由特征的质量和标签的质量共同决定,当某个类别为A的样本被错误标记为类别B的标签时,则称该样本是一个标签噪声。标签噪声产生的主要由专家主观标记失误、数据传输网络故障和硬件设备故障等造成的,其在航天航空、医疗、金融等各个应用领域都广泛存在,因此,在实际工程应用领域含标签噪声机器学习算法的研究具有重要的实际应用价值。如果学习时使用的标签数据都是错误的,那么不可能训练出有效的预测模型,同时,深度学习使用的神经网络往往结构复杂,为了得到良好的学习效果,对于带标签的训练数据通常为大数据或海量数据,标签噪声会增加分类模型学习的难度,模型学习过程受到标签噪声的干扰影响,增加了模型的复杂度。常见的标签噪声的处理方法有三类:标签噪声鲁棒方法、标签噪声过滤方法以及标签噪声重标注方法。标签噪声鲁棒方法是指分类模型的学习过程开发对标签噪声具有鲁棒性的策略,改进分类算法的内部结构,以增强模型对标签噪声的适应能力。标签噪声过滤方法可划分为两个阶段:标签噪声检测和标签噪声移除,首先对样本集实施标签噪声检测算法,识别并标记样本集中的标签噪声,再对被标记为噪声的样本进行移除操作,移除完成后样本集中的标签噪声含量降低,从而减轻标签噪声对模型的干扰影响。标签噪声重标注方法是指通过识别样本集中的标签噪声并对标签噪声进行类别标签重新标记的过程,该方法分为两步操作完成:标签噪声检测和标签噪声更正,首先通过标签噪声检测算法识别样本集中的标签噪声,再使用机器学习方法对这些标签噪声进行类别标签更正。当需要进行标签噪声处理操作的对象是类别分布不平衡的样本集(机器学习中的不平衡数据集是指样本集合中不同类别的样本数量差距大,其中某一类或某几类样本的数量远少于其他类别的样本数量,其中数量处于劣势的样本类别被称为少数类。)时,有监督学习的过程通常会受到数据分布不平衡的影响,对少数样本的识别能力较低,现有的标签噪声处理标签方法存在如下不足之处:(1)在标签噪声鲁棒方法中,由于机器学习中大多数分类算法都是对标签噪声不耐受的,仅有少部分分类算法在训练集含有少量标签噪声时具有一定的抗标签噪声能力,在标签噪声含量较高时,训练所得的模型性能仍会受到干扰影响;由于标签噪声鲁棒方法是通过对算法的内部结构进行改进,从而增强模型对标签噪声的健壮性,这种内部改造方法仅适用于当前算法,对其他学习算法不具有通用性;由于算法本身的复杂性,对算法内部结构进行改造是一个难度较高、工作量很大的过程。(2)在标签噪声过滤方法中,标签噪声过滤过程是通过噪声识别和噪声移除两步操作来完成的,对含标签噪声的样本集进行标签噪声过滤后可能产生以下几种情况:1)理想情况下,标签噪声被识别出来并被移除;2)正确样本被错误识别为噪声而被移除;3)标签噪声未被识别出来被保留在训练集中。将标签噪声过滤方法应用于分布不平衡数据集时,其采取的噪声移除操作会减少数据集的样本数量;尤其是对少数类样本来说,由于少数类样本的数量少,噪声识别算法对少数类样本的学习能力有限,少数类样本被误认为标签噪声的概率更大;如果对正确的少数类样本进行了移除,不仅减少了数据集的样本数量,而且将进一步加剧数据集的不平衡程度,增加数据分布不平衡的有监督学习过程的难度。针对现有技术的缺陷,公开号为CN110363228A的专利提供了一种噪声标签标注方法,其利用基学习器对样本进行分类并估计噪声率以识别出标签噪声,再使用基分类器对标签噪声进行重新标注;公开号为CN105426826A专利提供了一种基于标签噪声纠正的众包标注数据质量提升方法,该方法通过众包标签集成、噪声识别、噪声纠正三个过程完成对标签噪声的类别纠正。与标签噪声过滤方法相比,这两种标签噪声纠正方法不会减少数据集的样本数量,但噪声识别过程仍不能避免将少数类样本误识别为标签噪声以及标签噪声未被识别出来的情况。基于上述缺陷可知,现有技术由于算法本身的复杂性,对算法内部结构进行改造难度较高、工作量很大;噪声移除操作可能会减少数据集的样本数量,将进一步加剧数据集的不平衡程度,增加数据分布不平衡的有监督学习过程的难度。因而,本领域亟需提出一种基于异质集成的标签噪声纠正方法。
技术实现思路
本专利技术的目的是提出一种基于异质集成的标签噪声纠正方法,其适用于具有分布不平衡特点的数据集中的标签噪声处理,适用于各种类型的分类器,具有较好的通用性;可独立完成类别标签纠正过程;循环了P轮分层交叉划分,保证每个交叉划分子集具有和原始样本集相同的不平衡程度,且减少了数据集单次交叉划分的偶然性对分类器的影响;通过异质集成方式更新样本的类别标签,可以减轻某种分类器会受数据类型的负面影响。本专利技术的技术方案是这样方式实现的:一种基于异质集成的标签噪声纠正方法,包括以下步骤:步骤S1:构建异质集成的标签噪声纠正算法;步骤S2:输入算法所需的变量,包括待处理数据集D、K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M;步骤S3:对所述数据集D进行P轮K折分层交叉划分;步骤S4:对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成,得到第一轮基于预测结果多数投票后的P个更新数据集D1',D2',…,Dp',使得数据集D中的每个样本再次获得P个类别标签;步骤S5:基于步骤S4的结果,为更新数据集D1',D2',…,Dp'中的每个样本获得的P个类别标签进行第二轮多数投票,纠正标签噪声,得到纠正类别标签后的训练样本集D";步骤S6:将第二轮多数投票的结果确定为该样本的最终类别标签,得到标签噪声纠正的结果。步骤S3至步骤S6还可以采用以下步骤:步骤A3:对所述数据集D进行一轮K折分层交叉划分;步骤A4:对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成,得到第一轮基于预测结果多数投票后的1个更新数据集D';步骤A5:循环步骤A3至步骤A4过程P次,得到第一轮基于预测结果多数投票后的P个更新数据集D1',D2',…,Dp',使得数据集D中的每个样本再次获得P个类别标签;步骤A6:基于步骤A5的结果,为更新数据集D1',D2',…,Dp'中的每个样本获得的P个类别标签进行第二轮多数投票,纠正标签噪声,得到纠正类别标签后的训练样本集D";步骤A7:将第二轮多数投票的结果确定为该样本的最终类别标签,得到标签噪声纠正的结果。解决本专利技术技术问题的技术原理为:数据集D经过P轮K折分层交叉划分,M种异质分类器预测,两轮多数投票集成预测结果,对数据集D中的每个样本均进行了类别标签的更新,噪声标签纠正的更新结果有两种:1)更新后样本的类别标签不发生改变,表明该样本文档来自技高网
...

【技术保护点】
1.一种基于异质集成的标签噪声纠正方法,其特征在于,包括以下步骤:/n步骤S1:构建异质集成的标签噪声纠正算法;/n步骤S2:输入算法所需的变量,包括待处理数据集D、K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M;/n步骤S3:对所述数据集D进行P轮K折分层交叉划分;/n步骤S4:对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成,得到第一轮基于预测结果多数投票后的P个更新数据集D

【技术特征摘要】
1.一种基于异质集成的标签噪声纠正方法,其特征在于,包括以下步骤:
步骤S1:构建异质集成的标签噪声纠正算法;
步骤S2:输入算法所需的变量,包括待处理数据集D、K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M;
步骤S3:对所述数据集D进行P轮K折分层交叉划分;
步骤S4:对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成,得到第一轮基于预测结果多数投票后的P个更新数据集D1',D2',…,Dp',使得数据集D中的每个样本再次获得P个类别标签;
步骤S5:基于步骤S4的结果,为更新数据集D1',D2',…,Dp'中的每个样本获得的P个类别标签进行第二轮多数投票,纠正标签噪声,得到纠正类别标签后的训练样本集D";
步骤S6:将第二轮多数投票的结果确定为该样本的最终类别标签,得到标签噪声纠正的结果。


2.根据权利要求1所述的一种基于异质集成的标签噪声纠正方法,其特征在于,步骤S2中算法所需的变量还具有如下特征:
待处理数据集D:数据集D中包含了L种不同的类别标签C1,C2,…,CL;
K折分层交叉划分的折数K:K≥2;
K折分层交叉划分的循环轮数P:P为奇数且P>2;
异质分类器的种数M:M为奇数且M>2。


3.根据权利要求1或2所述的一种基于异质集成的标签噪声纠正方法,其特征在于,步骤S3具体包括以下步骤:
步骤S31:将数据集D按类别分为L个样本子集D1,D2,…,DL,类别标签相同的样本为一组,有D=D1∪D2∪…∪DL,
步骤S32:将D1样本子集随机均分为K份,产生D11,D12,…,D1k;对D2,…,DL样本子集重复该过程;
步骤S33:令E1=D11∪D21∪…∪DL1,同理可得E2,…,Ek;得到一轮K折分层交叉划分的结果E1,E2……Ek,其中D=E1∪E2∪…∪EL;
步骤S34:循环步骤S31和步骤S33过程P次,对数据集D进行P轮K折分层交叉划分。


4.根据权利要求1或2所述的一种基于异质集成的标签噪声纠正方法,其特征在于,步骤S4具体包括以下步骤:
步骤S41:基于步骤S3中一轮K折分层交叉划分的结果E1,E2,…,Ek进行数据集D的标签更新,具体步骤为:
步骤S411:选择E1作为待预测对象,D\E1数据集合中的所有样本作训练数据,选择M种不同的机器学习分类算法,训练M个不同的分类器T1,T2,…,TM;
步骤S412:使用这M个异质...

【专利技术属性】
技术研发人员:熊庆宇易华玲杨正益邹青宏高旻吴丹文俊浩胡瑶张致远
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1