一种类不平衡数据过采样方法及相关设备技术

技术编号：37561955 阅读：19 留言：0更新日期：2023-05-15 07:43

本发明专利技术提供了一种类不平衡数据过采样方法及相关设备，包括：获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的信用卡异常交易数据集作为不平衡数据集；随机选取多个少数类样本作为核心样本点，确定自然最近邻集合、自然最近邻域；根据不平衡数据集中样本的空间分布情况，计算多数类样本在每个自然最近邻集合中所占的比例；根据比例确定每个核心样本点在不平衡数据集中的空间分布情况、生成的新样本的数量权重、位置权重；根据数量权重、位置权重获取新样本的样本特征，并基于样本特征得到新样本集，将新样本集与不平衡数据集进行汇总，得到用于预测金融欺诈行为的平衡数据集；提高了预测金融欺诈行为的精度。测金融欺诈行为的精度。测金融欺诈行为的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种类不平衡数据过采样方法及相关设备

[0001]本专利技术涉及金融类不平衡数据处理
，特别涉及一种类不平衡数据过采样方法及相关设备。

技术介绍

[0002]随着人工智能技术的不断发展，数据的收集、存储、处理技术也在不断进步。融合了多学科的机器学习与数据挖掘技术已成为分析处理数据并转化为所需知识的重要方法。传统的机器学习通常假设数据类别的分布是趋于平衡的，数据的类别对应的样本数相差不大。然而，在实际情况中，数据类别分布不平衡普遍存在与各个应用领域当中。例如在信用卡欺诈检测中，欺诈交易可能只占全部交易比例的1%，这时算法只需评判所有交易为正常交易，即可获得99%的分类准确率，这种情况忽略了欺诈交易的可能，对企业和个人财产造成严重损失。所以，针对数据的类不平衡特性进行平衡化处理具有极高的研究价值和应用前景。
[0003]现有的针对数据的类不平衡处理主要包括针对少数类样本进行过采样或者针对多数类样本进行欠采样，或者二者方法的结合。其中，过采样是指通过一定的方法和技术通过增加少数类样本，从而达到数据类不平衡的方法。
[0004]标准欧式距离是在欧式距离的基础上，将样本在各个维度上的取值都标准化到期望为0，方差为1。
[0005]自然最近邻以及自然最近邻域是指存在近邻数值以及样本点集合，对于，使得与中的个样本互为最近路径上的点，则与个样本点互为自然邻，相邻点连线构成的区域成为自然最近邻域，为自然最近邻值。
[0006]目前，现有过采样方法大多以SMOTE算法为基础，通过随机选择少数类样本及...

【技术保护点】

【技术特征摘要】
1.一种类不平衡数据过采样方法，其特征在于，包括：步骤1，获取待处理的信用卡异常交易数据集，将所述信用卡异常交易数据集作为不平衡数据集，所述不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集；步骤2，随机选取所述少数类样本集中的部分少数类样本作为核心样本点，确定每个所述核心样本点的自然最近邻集合以及与每个所述自然最近邻集合对应的自然最近邻域；每个所述自然最近邻集合中包括所述核心样本点的多个近邻元素；步骤3，根据所述不平衡数据集中每个样本的空间分布情况，计算所述多数类样本在每个所述自然最近邻集合中所占的比例；步骤4，根据所述多数类样本在每个所述自然最近邻集合中所占的比例，确定每个所述核心样本点在所述不平衡数据集中的空间分布情况；步骤5，根据每个所述核心样本点在所述不平衡数据集中的空间分布情况，确定在所述自然最近邻域中生成的新样本的数量权重；步骤6，根据每个所述核心样本点在所述不平衡数据集中的空间分布情况，确定在每个所述自然最近邻域生成的新样本点的位置权重；步骤7，根据所述数量权重和所述位置权重，获取在每个所述自然最近邻域中生成的新样本的样本特征，并基于所述样本特征得到新样本集，将所述新样本集与所述不平衡数据集进行汇总，得到用于预测金融欺诈行为的平衡数据集。2.根据权利要求1所述的类不平衡数据过采样方法，其特征在于，在所述步骤2之前，包括：计算两个所述少数类样本之间的标准欧式距离，公式如下：其中，表示第个少数类样本与第个少数类样本的之间距离，、分别表示第个少数类样本、第个少数类样本在第个样本特征维度上的取值，表示少数类样本点集合在第个样本特征维度上的标准差，为样本样本特征数量。3.根据权利要求2所述的类不平衡数据过采样方法，其特征在于，所述步骤2包括：随机选取所述少数类样本集中的多个少数类样本作为核心样本点；针对每个所述核心样本点，选取所述核心样本点的个近邻元素；选取所述核心样本点的个近邻元素构成近邻集合；针对所述少数类样本集中除所述核心样本点以外的少数类样本，若所述少数类样本的最近邻集合中包含所述核心样本点，则认为该少数类样本为所述核心样本点的逆近邻元
素，所述逆近邻元素组成逆近邻集合；针对所述少数类样本集中除所述核心样本点以外的少数类样本，若所述少数类样本的最近邻集合中不包含所述核心样本点，则认为该少数类样本为离群点，并舍弃该少数类样本；求取所述近邻集合与所述逆近邻集合的交集；若所述交集为空集，则重新定义的值，重复选取所述核心样本点的近邻集合和逆近邻集合；若所述交集为非空...

【专利技术属性】
技术研发人员：刘利枚，黄志伟，刘星宝，石彪，
申请(专利权)人：湖南工商大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人