一种类不平衡数据过采样方法及相关设备技术

技术编号:37561955 阅读:19 留言:0更新日期:2023-05-15 07:43
本发明专利技术提供了一种类不平衡数据过采样方法及相关设备,包括:获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的信用卡异常交易数据集作为不平衡数据集;随机选取多个少数类样本作为核心样本点,确定自然最近邻集合、自然最近邻域;根据不平衡数据集中样本的空间分布情况,计算多数类样本在每个自然最近邻集合中所占的比例;根据比例确定每个核心样本点在不平衡数据集中的空间分布情况、生成的新样本的数量权重、位置权重;根据数量权重、位置权重获取新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集;提高了预测金融欺诈行为的精度。测金融欺诈行为的精度。测金融欺诈行为的精度。

【技术实现步骤摘要】
一种类不平衡数据过采样方法及相关设备


[0001]本专利技术涉及金融类不平衡数据处理
,特别涉及一种类不平衡数据过采样方法及相关设备。

技术介绍

[0002]随着人工智能技术的不断发展,数据的收集、存储、处理技术也在不断进步。融合了多学科的机器学习与数据挖掘技术已成为分析处理数据并转化为所需知识的重要方法。传统的机器学习通常假设数据类别的分布是趋于平衡的,数据的类别对应的样本数相差不大。然而,在实际情况中,数据类别分布不平衡普遍存在与各个应用领域当中。例如在信用卡欺诈检测中,欺诈交易可能只占全部交易比例的1%,这时算法只需评判所有交易为正常交易,即可获得99%的分类准确率,这种情况忽略了欺诈交易的可能,对企业和个人财产造成严重损失。所以,针对数据的类不平衡特性进行平衡化处理具有极高的研究价值和应用前景。
[0003]现有的针对数据的类不平衡处理主要包括针对少数类样本进行过采样或者针对多数类样本进行欠采样,或者二者方法的结合。其中,过采样是指通过一定的方法和技术通过增加少数类样本,从而达到数据类不平衡的方法。
[0004]标准欧式距离是在欧式距离的基础上,将样本在各个维度上的取值都标准化到期望为0,方差为1。
[0005]自然最近邻以及自然最近邻域是指存在近邻数值以及样本点集合,对于,使得与中的个样本互为最近路径上的点,则与个样本点互为自然邻,相邻点连线构成的区域成为自然最近邻域,为自然最近邻值。
[0006]目前,现有过采样方法大多以SMOTE算法为基础,通过随机选择少数类样本及其近邻样本做线性插值,生成一定数量的少数类样本点的方法;该算法的核心为近邻算法,该类方法存在最近邻值确定较为繁琐,设置固定值会导致生成样本的质量会下降等问题;同时,SOMTE方法本身对少数类样本的离群点不敏感,在选择样本点进行线性插值时,容易取到离群点,生成大量噪声样本。

技术实现思路

[0007]本专利技术提供了一种类不平衡数据过采样方法及相关设备,其目的是为了消除离群点对平衡数据集中样本特征的干扰,提高预测金融欺诈行为的精度。
[0008]为了达到上述目的,本专利技术提供了一种类不平衡数据过采样方法,包括:步骤1,获取待处理的信用卡异常交易数据集,将信用卡异常交易数据集作为不平衡数据集,不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本
组成的多数类样本集;步骤2,随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;每个自然最近邻集合中包括核心样本点的多个近邻元素;步骤3,根据不平衡数据集中每个样本的空间分布情况,计算多数类样本在每个自然最近邻集合中所占的比例;步骤4,根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况;步骤5,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在自然最近邻域中生成的新样本的数量权重;步骤6,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在每个自然最近邻域生成的新样本点的位置权重;步骤7,根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集。
[0009]进一步来说,在步骤2之前,包括:计算两个少数类样本之间的标准欧式距离,公式如下:其中,表示第个少数类样本与第个少数类样本的之间距离,、分别表示第个少数类样本、第个少数类样本在第个样本特征维度上的取值,表示少数类样本点集合在第个样本特征维度上的标准差,为样本样本特征数量。
[0010]进一步来说,步骤2包括:随机选取少数类样本集中的部分少数类样本作为核心样本点;针对每个所述核心样本点,选取所述核心样本点的个近邻元素;选取所述核心样本点的个近邻元素构成近邻集合;针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中包含所述核心样本点,则认为该少数类样本为所述核心样本点的逆近邻元素,所述逆近邻元素组成逆近邻集合;针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中不包含所述核心样本点,则认为该少数类样本为离群点,并舍弃该少数类样本;
求取所述近邻集合与所述逆近邻集合的交集;若所述交集为空集,则重新定义的值,重复选取所述核心样本点的近邻集合和逆近邻集合;若所述交集为非空集,则自然最近邻集合为,并重新定义的值,重复求取自然最近邻集合;直至所述核心样本点的逆近邻集合不发生改变,得到每个核心样本点的自然最近邻集合以及每个自然最近邻集合对应的自然最近邻域。
[0011]进一步来说,计算核心样本点在每个自然最近邻集合中多数类样本所占的比例,表达式为:其中,表示核心样本点在第个自然最近邻集合中多数类样本所占的比例,为第个自然最近邻集合中多数类样本的数量,表示核心样本点的近邻元素的数量。
[0012]进一步来说,步骤4包括:根据多数类样本在每个自然最近邻集合中所占的比例;若,;若,;若,;其中,为核心样本点的样本生成控制权重,为控制参数,;根据所述样本生成控制权重,确定每个核心样本点在不平衡数据集中的空间分布情况。
[0013]进一步来说,在自然最近邻域中生成的新样本的数量权重为:其中,为核心样本点的样本生成控制权重,表示个自然最近邻域中核心样本点的样本生成控制权重之和。
[0014]进一步来说,在自然最近邻域生成的新样本点的位置权重为:
其中,为核心样本点的样本生成控制权重,表示个自然最近邻域中核心样本点的样本生成控制权重之和。
[0015]进一步来说,步骤7包括:确定不平衡数据集中所需生成新样本的数量,表达式为:其中,为平衡参数,用于控制新样本的数量,;计算每个自然最近邻域中所需生成新样本的数量,表达式为:分别针对每个自然最近邻域,根据区域样本生成公式生成个新样本的样本特征,区域样本生成公式为:其中,表示以核心样本点生成的新样本点的第个样本特征,表示核心样本点与自然最近邻域中其他样本点的样本特征差值,为随机数,取值范围为[0,1];根据每个所述自然最近邻域中生成的新样本的样本特征,得到新样本为,新样本由个样本特征构成;由个新样本进行组合,得到新样本集为;将所述新样本集与所述不平衡数据集进行汇总,得到平衡数据集。
[0016]本专利技术还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现类不平衡数据过采样方法。
[0017]本专利技术还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现类不平衡数据过采样方法。
[0018]本专利技术的上述方案有如下的有益效果:本专利技术通过获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的信用卡异常交易数据集作为不平衡数据集;随机选取少数类样本集中的部分少数类样本作为核本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种类不平衡数据过采样方法,其特征在于,包括:步骤1,获取待处理的信用卡异常交易数据集,将所述信用卡异常交易数据集作为不平衡数据集,所述不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集;步骤2,随机选取所述少数类样本集中的部分少数类样本作为核心样本点,确定每个所述核心样本点的自然最近邻集合以及与每个所述自然最近邻集合对应的自然最近邻域;每个所述自然最近邻集合中包括所述核心样本点的多个近邻元素;步骤3,根据所述不平衡数据集中每个样本的空间分布情况,计算所述多数类样本在每个所述自然最近邻集合中所占的比例;步骤4,根据所述多数类样本在每个所述自然最近邻集合中所占的比例,确定每个所述核心样本点在所述不平衡数据集中的空间分布情况;步骤5,根据每个所述核心样本点在所述不平衡数据集中的空间分布情况,确定在所述自然最近邻域中生成的新样本的数量权重;步骤6,根据每个所述核心样本点在所述不平衡数据集中的空间分布情况,确定在每个所述自然最近邻域生成的新样本点的位置权重;步骤7,根据所述数量权重和所述位置权重,获取在每个所述自然最近邻域中生成的新样本的样本特征,并基于所述样本特征得到新样本集,将所述新样本集与所述不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集。2.根据权利要求1所述的类不平衡数据过采样方法,其特征在于,在所述步骤2之前,包括:计算两个所述少数类样本之间的标准欧式距离,公式如下:其中,表示第个少数类样本与第个少数类样本的之间距离,、分别表示第个少数类样本、第个少数类样本在第个样本特征维度上的取值,表示少数类样本点集合在第个样本特征维度上的标准差,为样本样本特征数量。3.根据权利要求2所述的类不平衡数据过采样方法,其特征在于,所述步骤2包括:随机选取所述少数类样本集中的多个少数类样本作为核心样本点;针对每个所述核心样本点,选取所述核心样本点的个近邻元素;选取所述核心样本点的个近邻元素构成近邻集合;针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中包含所述核心样本点,则认为该少数类样本为所述核心样本点的逆近邻元
素,所述逆近邻元素组成逆近邻集合;针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中不包含所述核心样本点,则认为该少数类样本为离群点,并舍弃该少数类样本;求取所述近邻集合与所述逆近邻集合的交集;若所述交集为空集,则重新定义的值,重复选取所述核心样本点的近邻集合和逆近邻集合;若所述交集为非空...

【专利技术属性】
技术研发人员:刘利枚黄志伟刘星宝石彪
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1