一种基于邻域信息的不平衡数据集预处理方法技术

技术编号:28558804 阅读:37 留言:0更新日期:2021-05-25 17:53
本发明专利技术提供一种基于邻域信息的不平衡数据集预处理方法,包括如下步骤:步骤S1、随机选取目标不平衡数据集中的一个少数类样本;步骤S2、构建以所选取少数类样本为中心的空间超球体形态的邻域;步骤S3、判断所有构建的邻域是否包含所有少数类样本,若是,则执行步骤S4,若否,则返回执行步骤S1;步骤S4、依据邻域所含少数类样本的数量确定所有邻域的权重;步骤S5、确定每个邻域需要合成新样本的数量;步骤S6、对每个邻域合成新样本,本预处理方法通过几何空间上的探测对合成的新样本区域进行约束,通过加权合成策略对后续分类贡献程度不同的样本提供不同的采样倍率,更加便于传统算法的识别分类,且精度更高。

【技术实现步骤摘要】
一种基于邻域信息的不平衡数据集预处理方法
本专利技术涉及数据挖掘和数据预处理
,尤其涉及一种基于邻域信息的不平衡数据集预处理方法。
技术介绍
随着信息时代移动物联网的飞速发展,各个行业各个领域的数据量也呈现爆发式增长,如何在海量的数据中识别出真正有意义的少量数据,已经成为机器学习领域的数据挖掘领域的一个热点和难点。数据识别分类在实际生活中已经有了广泛的应用,应运而生出了很多成熟的分类算法,对于平衡数据集,这些传统算法大部分都有一个很好的分类结果,然后在实际应用中,非常多的数据集都是不平衡数据集,一个数据集中的某类样本的数量明显少于其他样本的数量,这种数据集被称为不平衡数据集,例如生活中常见的医疗诊断数据集、网络鉴别数据集、骚扰拦截数据集等,传统的分类方法更倾向于总体分类精度,而不是针对少数类数据,当数据集分布不均匀且少数类与多数类存在边缘重叠时,传统分类算法会将分类超平面边缘部分的样本直接分类为多数类样本以提高整体分类精度,与此同时,少数类的召回率大大降低,少数类数据虽然对总体精度影响较小,但却极为重要,例如一个数据集中有1000个样本,999个多数类和1个少数类,那么通过传统分类方法将全部数据划分为多数类,那么整体分类准确率也可以达到99.9%,但是对于少数类而言,分类的错误率却达到了100%。随着及其学习在实际生活中应用的普及,人们对不平衡数据集中少数类的识别率有了更高要求,与此同时,传统分类方法对不平衡数据集的识别分类却存在种种缺陷,无法提供令人满意的分类结果,因此,对不平衡数据集分类方法的研究是目前亟需解决的问题,具有重要的理论和实际意义。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种基于邻域信息的不平衡数据集预处理方法,以解决上述
技术介绍
所提全部问题或之一。基于上述目的,本专利技术提供了一种基于邻域信息的不平衡数据集预处理方法,包括如下步骤:步骤S1、随机选取目标不平衡数据集中的一个少数类样本;步骤S2、构建以所选取少数类样本为中心的空间超球体形态的邻域,所述邻域中只包含所选取少数类样本以及若干个同类样本;步骤S3、判断所有构建的邻域是否包含所有少数类样本,若是,则执行步骤S4,若否,则返回执行步骤S1;步骤S4、依据邻域所含少数类样本的数量确定所有邻域的权重;步骤S5、依据每个邻域的权重以及目标不平衡数据集中的少数类样本与多数类样本的差值确定每个邻域需要合成新样本的数量;步骤S6、对每个邻域合成新样本,将少数类样本的数量扩充直至与多数类样本的数量相等。可选的,所述步骤S2具体包括:步骤S21、寻找距离所选取少数类样本最近的多数类样本,确定两者的第一欧式距离;步骤S22、寻找距离所选取少数类样本最远的少数类样本,确定两者的第二欧式距离,所述第二欧式距离小于第一欧式距离;步骤S23、依据第一欧式距离和第二欧式距离确定覆盖半径;步骤S24、以所选取少数类样本为中心,覆盖半径为半径,构造空间超球体形态的邻域。可选的,所述覆盖半径为第一欧式距离与第二欧式距离的均值。可选的,所述步骤S4具体包括:步骤S41、将所有邻域以所含少数类样本数量从小到大进行排序,依据邻域所含少数类样本的数量确定所有邻域的初始权重;步骤S42、将所有邻域的初始权重反向排列并与所有邻域逐个匹配,得到每个邻域的权重。可选的,所述步骤S5具体包括:确定目标不平衡数据集的采样倍率,即多数类样本与少数类样本的差值,用采样倍率乘以邻域的权重得到每个邻域需要合成新样本的数量。可选的,所述步骤S6具体包括:对于所含少数类样本的数量为1的邻域,将该邻域内的少数类样本依据该邻域所需要合成新样本的数量复制多次;对于所含少数类样本的数量大于1的邻域,随机选取一个邻域中心区域的第一样本,再随机选取邻域中的一个第二样本,依据第一样本和第二样本合成一个新少数类样本,依据该邻域所需要合成新样本的数量多次重复前述步骤。可选的,所述依据第一样本和第二样本合成一个新少数类样本的具体合成公式为:Xnew=xa+rand(0,1)*dif(xb-xa),其中Xnew为新少数类样本,xa为第一样本,xb为第二样本,rand(0,1)表示0-1的随机实数,dif(xb-xa)表示第一样本与第二样本之间特征值差值。从上面所述可以看出,本专利技术提供的基于邻域信息的不平衡数据集预处理方法,通过几何空间上的探测对合成的新样本区域进行约束,通过加权合成策略对后续分类贡献程度不同的样本提供不同的采样倍率,扩大了更具有有利信息的边界样本在后续识别分类中的信息表达能力,减少发生过拟合现象的可能性,经过本方法预处理后,不平衡数据集转换为平衡数据集,更加便于传统算法的识别分类,且精度更高。附图说明为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的不平衡数据集预处理方法的流程示意图;图2为本专利技术的构建以所选取少数类样本为中心的空间超球体形态的邻域的流程示意图;图3为本专利技术的依据邻域所含少数类样本的数量确定所有邻域的权重的流程示意图。具体实施方式为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本公开进一步详细说明。需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。本说明书一个或多个实施例公开了一种基于邻域信息的不平衡数据集预处理方法,包括如下步骤:步骤S1、随机选取目标不平衡数据集中的一个少数类样本;步骤S2、构建以所选取少数类样本为中心的空间超球体形态的邻域,所述邻域中只包含所选取少数类样本以及若干个同类样本;步骤S3、判断所有构建的邻域是否包含所有少数类样本,若是,则执行步骤S4,若否,则返回执行步骤S1;步骤S4、依据邻域所含少数类样本的数量确定所有邻域的权重;步骤S5、依据每个邻域的权重以及目标不平衡数据集中的少数类样本与多数类样本的差值确定每个邻域需要合成新样本的数量;本文档来自技高网
...

【技术保护点】
1.一种基于邻域信息的不平衡数据集预处理方法,其特征在于,包括如下步骤:/n步骤S1、随机选取目标不平衡数据集中的一个少数类样本;/n步骤S2、构建以所选取少数类样本为中心的空间超球体形态的邻域,所述邻域中只包含所选取少数类样本以及若干个同类样本;/n步骤S3、判断所有构建的邻域是否包含所有少数类样本,若是,则执行步骤S4,若否,则返回执行步骤S1;/n步骤S4、依据邻域所含少数类样本的数量确定所有邻域的权重;/n步骤S5、依据每个邻域的权重以及目标不平衡数据集中的少数类样本与多数类样本的差值确定每个邻域需要合成新样本的数量;/n步骤S6、对每个邻域合成新样本,将少数类样本的数量扩充直至与多数类样本的数量相等。/n

【技术特征摘要】
1.一种基于邻域信息的不平衡数据集预处理方法,其特征在于,包括如下步骤:
步骤S1、随机选取目标不平衡数据集中的一个少数类样本;
步骤S2、构建以所选取少数类样本为中心的空间超球体形态的邻域,所述邻域中只包含所选取少数类样本以及若干个同类样本;
步骤S3、判断所有构建的邻域是否包含所有少数类样本,若是,则执行步骤S4,若否,则返回执行步骤S1;
步骤S4、依据邻域所含少数类样本的数量确定所有邻域的权重;
步骤S5、依据每个邻域的权重以及目标不平衡数据集中的少数类样本与多数类样本的差值确定每个邻域需要合成新样本的数量;
步骤S6、对每个邻域合成新样本,将少数类样本的数量扩充直至与多数类样本的数量相等。


2.根据权利要求1所述的基于邻域信息的不平衡数据集预处理方法,其特征在于,所述步骤S2具体包括:
步骤S21、寻找距离所选取少数类样本最近的多数类样本,确定两者的第一欧式距离;
步骤S22、寻找距离所选取少数类样本最远的少数类样本,确定两者的第二欧式距离,所述第二欧式距离小于第一欧式距离;
步骤S23、依据第一欧式距离和第二欧式距离确定覆盖半径;
步骤S24、以所选取少数类样本为中心,覆盖半径为半径,构造空间超球体形态的邻域。


3.根据权利要求2所述的基于邻域信息的不平衡数据集预处理方法,其特征在于,所述覆盖半径为第一欧式距离与第二欧式距离的均值。


4.根据权利要求3所述的基于邻域信息的不平衡...

【专利技术属性】
技术研发人员:郭威王再见赵仁习
申请(专利权)人:安徽师范大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1