不平衡数据的分类方法、装置、存储介质及设备制造方法及图纸

技术编号:27877874 阅读:14 留言:0更新日期:2021-03-31 01:01
本发明专利技术涉及机器学习技术领域,公开了一种不平衡数据的分类方法、装置、存储介质及设备,所述方法包括:获取不平衡数据集,通过SVM算法计算不平衡数据集的支持向量集合,计算多数类集合中的每一个样本到支持向量集合中的每一个支持向量的第一距离,根据第一距离计算样本位置统计量,根据样本位置统计量计算类位统计量,根据类位统计量类位统计量对多数类集合进行下采样,获得下采样后的多数类集合。本发明专利技术提供的一种不平衡数据的分类方法、装置、存储介质及设备,利用数据样本与支持向量的距离度量数据样本的局部密度信息,从分布上考虑数据的不平衡程度,提高不平衡数据分类的准确率。

【技术实现步骤摘要】
不平衡数据的分类方法、装置、存储介质及设备
本专利技术涉及机器学习
,特别是涉及一种不平衡数据的分类方法、装置、存储介质及设备。
技术介绍
不平衡数据分类问题的解决方法主要有两个方面:数据层面和算法层面。数据层面的方法包括上采样和下采样,通过改变数据分布,降低不平衡度,提高分类效果;算法层面,通过分析已有算法在处理不平衡数据时的缺陷,改进算法或提出新算法来提升分类正确率,例如代价敏感学习和集成学习等。目前研究不平衡数据,以SMOTE(SyntheticMinorityOversamplingTechnique,合成少数类过采样技术)算法为基础的改进模型居多,但SMOTE算法会造成少数类的生成样本重叠,因为生成样本是各少数类样本随机生成的,忽略了其临近样本的分布特点。例如,SVMSMOTE采样基于SVM的超平面生成新样本,BorderlineSMOTE采样在少数类边界点附近生成样本。以上上采样方法通过增加少数类样本的数量,来降低类之间的不平衡度。而下采样指的是减少多数类样本的个数,来降低类之间的不平衡度,利用一些指标在多数类中选取与少数类样本个数相当的样本,但是目前的一些方法还未能较好地保证只去除冗余样本和噪声样本,分类准确率较低。因此,在数据层面解决不平衡分类问题时,衡量少数类与多数类之间数据分布的不平衡程度是重要的,如何增加有效的少数类样本数据和删除冗余的多数类样本数据具有重要的研究价值。
技术实现思路
本专利技术实施例所要解决的技术问题是:提供一种不平衡数据的分类方法、装置、存储介质及设备,利用数据样本与支持向量的距离度量数据样本的局部密度信息,从分布上考虑数据的不平衡程度,提高不平衡数据分类的准确率。为了解决上述技术问题,第一方面,本专利技术实施例提供一种不平衡数据的分类方法,所述方法包括如下步骤:获取不平衡数据集;其中,所述不平衡数据集包括多数类集合以及少数类集合;通过SVM算法计算所述不平衡数据集的支持向量集合;计算所述多数类集合中的每一个样本到所述支持向量集合中的每一个支持向量的第一距离;根据所述第一距离计算样本位置统计量;根据所述样本位置统计量计算类位统计量;根据所述类位统计量对所述多数类集合进行下采样,获得下采样后的多数类集合。作为一个优选方案,所述第一距离的计算公式为:式(1)中,c-1为所述多数类集合,xi∈c-1表示xi为c-1中的元素,xi为所述多数类集合中的第i个样本,xi=(xi1,xi2,…,xin),sj为所述支持向量集合中的第j个支持向量,si=(si1,si2,…,sin),d(xi,sj)为所述多数类样本中的第i个样本与所述支持向量集合中的第j个支持向量的第一距离。作为一个优选方案,所述样本位置统计量的计算公式如下:式(2)中,Qk(s)为xi的k近邻支持向量集合,sj∈Qk(s)表示sj为Qk(s)中的元素,μk(xi)为所述多数类集合中的第i个样本的样本位置统计量。作为一个优选方案,所述类位统计量的计算公式如下:式(3)中,wi为所述多数类集合中的第i个样本的类位统计量。作为一个优选方案,所述根据所述类位统计量对所述多数类集合进行下采样,具体包括:将所述多数类集合中的样本按wi大小排序,按中位数分成两部分;wi较小的部分,下采样(m-1-m1)m1/m-1个样本;其中,m1为所述少数类集合中的样本个数,m-1为所述多数类集合中的样本数量;wi较大的部分,下采样(m-1-m1)(1-m1/m-1)个样本。作为一个优选方案,所述方法还包括:通过混淆矩阵对分类结果进行评估。为了解决上述技术问题,第二方面,本专利技术实施例提供一种不平衡数据的分类装置,所述装置包括:数据获取模块,用于获取不平衡数据集;其中,所述不平衡数据集包括多数类集合以及少数类集合;支持向量计算模块,用于通过SVM算法计算所述不平衡数据集的支持向量集合;第一距离计算模块,用于计算所述多数类集合中的每一个样本到所述支持向量集合中的每一个支持向量的第一距离;样本位置统计量计算模块,用于根据所述第一距离计算样本位置统计量;类位统计量计算模块,用于根据所述样本位置统计量计算类位统计量;下采样模块,用于根据所述类位统计量对所述多数类集合进行下采样,获得下采样后的多数类集合。作为一个优选方案,所述装置还包括:评估模块,用于通过混淆矩阵对分类结果进行评估。为了解决上述技术问题,第三方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现如第一方面任一项所述的不平衡数据的分类方法。为了解决上述技术问题,第四方面,本专利技术实施例提供一种终端设备,所述终端设备包括存储器、处理器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述计算机程序由所述处理器执行时实现如第一方面任一项所述的不平衡数据的分类方法。与现有技术相比,本专利技术实施例提供的一种不平衡数据的分类方法、装置、存储介质及设备,其有益效果在于:首先获取不平衡数据集,然后通过SVM算法计算不平衡数据集的支持向量集合,其次计算多数类集合中的每一个样本到支持向量集合中的每一个支持向量的第一距离,再次根据第一距离计算样本位置统计量,接着根据样本位置统计量计算类位统计量,最后根据类位统计量对多数类集合进行下采样,获得下采样后的多数类集合;利用数据样本与支持向量的距离度量数据样本的局部密度信息,从分布上考虑数据的不平衡程度,并对不平衡的分类数据采用基于支持向量的下采样,能够有效地删除冗余的多数类样本,提高不平衡数据分类的准确率。附图说明为了更清楚地说明本专利技术实施例的技术特征,下面将对本专利技术实施例中所需要使用的附图做简单地介绍,显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术提供的一种不平衡数据的分类方法的一个优选实施例的流程示意图;图2是本专利技术提供的一种不平衡数据的分类装置的一个优选实施例的结构示意图;图3是本专利技术提供的一种终端设备的一个优选实施例的结构示意图。具体实施方式为了对本专利技术的技术特征、目的、效果有更加清楚的理解,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例仅用于说明本专利技术,但是不用来限制本专利技术的保护范围。基于本专利技术的实施例,本领域技术人员在没有付出创造性劳动的前提下所获得的其他实施例,都应属于本专利技术的保护范围。在本专利技术的描述中,应当理解的是,本文中的编号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有顺序或者技术含义,不能理解为规定或者暗示所描述的对象的重要性。需要说明的是,随着我国经济的高速发展,社会对电力的需本文档来自技高网...

【技术保护点】
1.一种不平衡数据的分类方法,其特征在于,所述方法包括:/n获取不平衡数据集;其中,所述不平衡数据集包括多数类集合以及少数类集合;/n通过SVM算法计算所述不平衡数据集的支持向量集合;/n计算所述多数类集合中的每一个样本到所述支持向量集合中的每一个支持向量的第一距离;/n根据所述第一距离计算样本位置统计量;/n根据所述样本位置统计量计算类位统计量;/n根据所述类位统计量对所述多数类集合进行下采样,获得下采样后的多数类集合。/n

【技术特征摘要】
1.一种不平衡数据的分类方法,其特征在于,所述方法包括:
获取不平衡数据集;其中,所述不平衡数据集包括多数类集合以及少数类集合;
通过SVM算法计算所述不平衡数据集的支持向量集合;
计算所述多数类集合中的每一个样本到所述支持向量集合中的每一个支持向量的第一距离;
根据所述第一距离计算样本位置统计量;
根据所述样本位置统计量计算类位统计量;
根据所述类位统计量对所述多数类集合进行下采样,获得下采样后的多数类集合。


2.根据权利要求1所述的一种不平衡数据的分类方法,其特征在于,所述第一距离的计算公式为:



式(1)中,c-1为所述多数类集合,xi∈c-1表示xi为c-1中的元素,xi为所述多数类集合中的第i个样本,xi=(xi1,xi2,…,xin),sj为所述支持向量集合中的第j个支持向量,si=(si1,si2,…,sin),d(xi,sj)为所述多数类样本中的第i个样本与所述支持向量集合中的第j个支持向量的第一距离。


3.根据权利要求2所述的一种不平衡数据的分类方法,其特征在于,所述样本位置统计量的计算公式如下:



式(2)中,Qk(s)为xi的k近邻支持向量集合,sj∈Qk(s)表示sj为Qk(s)中的元素,μk(xi)为所述多数类集合中的第i个样本的样本位置统计量。


4.根据权利要求3所述的一种不平衡数据的分类方法,其特征在于,所述类位统计量的计算公式如下:



式(3)中,wi为所述多数类集合中的第i个样本的类位统计量。


5.根据权利要求4所述的一种不平衡数据的分类方法,其特征在于,所述根据所述类位统计量对所述多数类集合进行下采样,具体包括:
将所述...

【专利技术属性】
技术研发人员:张显聪杨珏范旭娟陈雁何锦强廖永力朱登杰
申请(专利权)人:广东电网有限责任公司广州供电局南方电网科学研究院有限责任公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1