一种基于异质集成的标签噪声纠正方法技术

技术编号：26033707 阅读：45 留言：0更新日期：2020-10-23 21:11

本发明专利技术提出了一种基于异质集成的标签噪声纠正方法，在本发明专利技术的方法中，数据集D经过P轮K折分层交叉划分，M种异质分类器预测，两轮多数投票集成预测结果，对数据集D中的每个样本均进行了类别标签的更新，实现噪声标签纠正的更新。本发明专利技术适用于具有分布不平衡特点的数据集中的标签噪声处理，适用于各种类型的分类器，具有较好的通用性；可独立完成类别标签纠正过程；循环了P轮分层交叉划分，保证每个交叉划分子集具有和原始样本集相同的不平衡程度，且减少了数据集单次交叉划分的偶然性对分类器的影响；通过异质集成方式更新样本的类别标签，可以减轻某种分类器会受数据类型的负面影响。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于异质集成的标签噪声纠正方法
本专利技术涉及数据处理领域，特别涉及一种基于异质集成的标签噪声纠正方法。
技术介绍
在机器学习领域中，常见的一类工作是使用带标签数据训练神经网络实现分类、回归或其他目的，这种训练模型学习规律的方法一般称之为监督学习。在监督学习中，训练样本通常由一组特征和一个类别标签组成，样本的质量由特征的质量和标签的质量共同决定，当某个类别为A的样本被错误标记为类别B的标签时，则称该样本是一个标签噪声。标签噪声产生的主要由专家主观标记失误、数据传输网络故障和硬件设备故障等造成的，其在航天航空、医疗、金融等各个应用领域都广泛存在，因此，在实际工程应用领域含标签噪声机器学习算法的研究具有重要的实际应用价值。如果学习时使用的标签数据都是错误的，那么不可能训练出有效的预测模型，同时，深度学习使用的神经网络往往结构复杂，为了得到良好的学习效果，对于带标签的训练数据通常为大数据或海量数据，标签噪声会增加分类模型学习的难度，模型学习过程受到标签噪声的干扰影响，增加了模型的复杂度。常见的标签噪声的处理方法有三类：标签噪声鲁棒方法、标签噪声过滤方法以及标签噪声重标注方法。标签噪声鲁棒方法是指分类模型的学习过程开发对标签噪声具有鲁棒性的策略，改进分类算法的内部结构，以增强模型对标签噪声的适应能力。标签噪声过滤方法可划分为两个阶段：标签噪声检测和标签噪声移除，首先对样本集实施标签噪声检测算法，识别并标记样本集中的标签噪声，再对被标记为噪声的样本进行移除操作，移除完成后样本集中的标签噪声含量降低，从而减轻...

【技术保护点】
1.一种基于异质集成的标签噪声纠正方法，其特征在于，包括以下步骤：/n步骤S1：构建异质集成的标签噪声纠正算法；/n步骤S2：输入算法所需的变量，包括待处理数据集D、K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M；/n步骤S3：对所述数据集D进行P轮K折分层交叉划分；/n步骤S4：对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成，得到第一轮基于预测结果多数投票后的P个更新数据集D

【技术特征摘要】
1.一种基于异质集成的标签噪声纠正方法，其特征在于，包括以下步骤：
步骤S1：构建异质集成的标签噪声纠正算法；
步骤S2：输入算法所需的变量，包括待处理数据集D、K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M；
步骤S3：对所述数据集D进行P轮K折分层交叉划分；
步骤S4：对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成，得到第一轮基于预测结果多数投票后的P个更新数据集D1＇,D2＇，…，Dp＇,使得数据集D中的每个样本再次获得P个类别标签；
步骤S5：基于步骤S4的结果，为更新数据集D1＇,D2＇，…，Dp＇中的每个样本获得的P个类别标签进行第二轮多数投票，纠正标签噪声,得到纠正类别标签后的训练样本集D"；
步骤S6：将第二轮多数投票的结果确定为该样本的最终类别标签，得到标签噪声纠正的结果。

2.根据权利要求1所述的一种基于异质集成的标签噪声纠正方法，其特征在于，步骤S2中算法所需的变量还具有如下特征：
待处理数据集D：数据集D中包含了L种不同的类别标签C1,C2，…，CL；
K折分层交叉划分的折数K：K≥2；
K折分层交叉划分的循环轮数P：P为奇数且P＞2；
异质分类器的种数M：M为奇数且M＞2。

3.根据权利要求1或2所述的一种基于异质集成的标签噪声纠正方法，其特征在于，步骤S3具体包括以下步骤：
步骤S31：将数据集D按类别分为L个样本子集D1,D2,…,DL，类别标签相同的样本为一组，有D＝D1∪D2∪…∪DL，
步骤S32：将D1样本子集随机均分为K份，产生D11，D12，…，D1k；对D2,…,DL样本子集重复该过程；
步骤S33：令E1＝D11∪D21∪…∪DL1，同理可得E2,…,Ek；得到一轮K折分层交叉划分的结果E1,E2……Ek，其中D＝E1∪E2∪…∪EL；
步骤S34：循环步骤S31和步骤S33过程P次，对数据集D进行P轮K折分层交叉划分。

4.根据权利要求1或2所述的一种基于异质集成的标签噪声纠正方法，其特征在于，步骤S4具体包括以下步骤：
步骤S41：基于步骤S3中一轮K折分层交叉划分的结果E1,E2,…,Ek进行数据集D的标签更新，具体步骤为：
步骤S411：选择E1作为待预测对象，D\E1数据集合中的所有样本作训练数据，选择M种不同的机器学习分类算法，训练M个不同的分类器T1,T2,…,TM；
步骤S412：使用这M个异质...

【专利技术属性】
技术研发人员：熊庆宇，易华玲，杨正益，邹青宏，高旻，吴丹，文俊浩，胡瑶，张致远，
申请(专利权)人：重庆大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人