一种不平衡数据的分类方法、装置、终端设备及介质制造方法及图纸

技术编号:37704500 阅读:13 留言:0更新日期:2023-06-01 23:52
本申请适用于数据处理技术领域,提供了一种不平衡数据的分类方法、装置、终端设备及介质,通过对训练数据样本进行聚类,得到数据聚类簇;根据每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;根据判别密度和预先设置的临界密度,确定训练数据样本的样本种类;通过过采样和欠采样平衡每个数据聚类簇中训练数据样本的数量;利用知识蒸馏网络的教师网络,生成每个训练数据样本的新标签;根据新标签,构建学生网络损失函数,并利用其对学生网络进行训练,得到分类预测模型;利用分类预测模型对待分类数据进行分类,识别欺诈行为。本申请能提高不平衡数据分类的准确性。分类的准确性。分类的准确性。

【技术实现步骤摘要】
一种不平衡数据的分类方法、装置、终端设备及介质


[0001]本申请属于数据处理
,尤其涉及一种不平衡数据的分类方法、装置、终端设备及介质。

技术介绍

[0002]欺诈行为是一种违法行为,会给受欺诈的人们造成严重的经济损失,对欺诈行为数据进行分类识别,是预防欺诈行为发生的有效办法。
[0003]数据分类是一种广为应用的数据分析形式,作为监督学习的代表,被广泛运用于各个领域,它以发现隐藏在数据和类别背后的关联性规则为目标,根据实例在特征空间上的分布对其进行所属类别的划分。随着科学和信息技术的进步,极大推动了社会发展。数据分类方法已经渗透到生产生活各个领域之中,其规模也在不断的增长。分类分析的主要应用方向是训练带有标签的数据集生成分类器,再用分类器去预测未带标签的同类数据的标签,希望能够给它们戴上正确的标签。
[0004]现存的常见分类算法有决策树分类算法、神经网络分类算法、邻近算法(KNN,K

NearestNeighbor)、支持向量机分类算法等算法。此类算法没有将数据分布均衡问题纳入考虑范围内,即使分类器对于整体样本的分类准确率很高,其中的不平衡数据中的少数欺诈行为数据的识别率还是比较低的。但是实际数据集中一些类别的欺诈行为样本数量可能比其他类别想象的少很多,甚至不在同一数据量级,因此,之前的方法对实际遇到的问题就无法适用。

技术实现思路

[0005]本申请提供了一种不平衡数据的分类方法、装置、终端设备及介质,可以解决现有技术对不平衡数据分类不准确的问题。r/>[0006]第一方面,本申请提供了一种不平衡数据的分类方法,包括:将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;训练数据样本表示已分类的欺诈检测样本;根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;每个训练数据样本的判别密度表示训练数据样本附近的其他训练数据样本的密度;根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类;其中,样本种类包括稠密样本,边界样本以及稀疏陷入样本,稀疏陷入样本表示判别密度小于临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀
疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与数据聚类簇中训练数据样本的标签相同;利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签;新标签包括软标签和伪标签;根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型;利用分类预测模型对待分类数据进行分类,识别欺诈行为。
[0007]可选的,根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度,包括:计算训练数据样本与数据聚类簇中其它训练数据样本之间的欧氏距离,并按照欧氏距离由大到小的顺序对其它训练数据样本进行排序;将前个其它训练数据样本作为所述训练数据样本的邻近样本,得到所述训练数据样本的邻近样本集合;通过计算公式得到判别密度;其中,表示第个训练数据样本的判别密度,表示所述邻近样本集合中的第个其它训练数据样本,。
[0008]可选的,根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类,包括:若训练数据样本的判别密度大于等于预先设置的临界密度,则将训练数据样本确定为稠密样本;若训练数据样本的判别密度小于等于预先设置的临界密度,且训练数据样本的邻近训练数据样本中存在一个或多个稠密样本,则将训练数据样本确定为边界样本;若训练数据样本的判别密度小于等于预先设置的临界密度,且训练数据样本的邻近训练数据样本中不存在稠密样本,则将训练数据样本确定为稀疏陷入样本。
[0009]可选的,对数据聚类簇中的训练数据样本进行过采样,包括:若数据聚类簇中稠密样本的个数大于等于三个,则选取三个稠密样本,并在以该三个稠密样本为顶点三角形的外切圆内生成新的训练数据样本;否则,利用线性插值生成新的训练数据样本;对数据聚类簇中的稀疏陷入样本进行复制,得到新的训练数据样本;利用SMOTE算法对数据聚类簇中的边界样本进行插值,得到新的训练数据样本。
[0010]可选的,利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签,包括:
通过计算公式得到训练数据样本的分类概率分布;其中,表示第个训练数据样本的分类概率分布,表示教师网络最后一层第个输出节点的输出,表示教师网络最后一层第个输出节点的输出,表示蒸馏温度;根据概率分布和预先设置的临界概率,得到训练数据样本的新标签。
[0011]可选的,根据概率分布和预先设置的临界概率,得到训练数据样本的新标签,包括:若分类概率分布中的最大概率大于临界概率,则将最大概率对应的标签作为训练数据样本的伪标签;否则,将最大概率对应的标签作为训练数据样本的软标签。
[0012]可选的,学生网络损失函数的表达式如下:学生网络损失函数的表达式如下:学生网络损失函数的表达式如下:学生网络损失函数的表达式如下:其中,表示蒸馏温度为1时,学生网络输出的概率分布向量与学生网络产生的标签向量的交叉熵,表示概率分布向量的第个分量,,表示标签向量中分量的总数量,表示标签向量的第个分量,,表示蒸馏温度为时,学生网络输出的概率分布向量与教师网络输出的概率分布向量的交叉熵,表示概率分布向量的第个分量,,表示概率分布向量中分量的总数量,表示标签向量的第个分量,。
[0013]第二方面,本申请提供了一种不平衡数据的分类装置,包括:聚类模块,用于将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;训练数据样本表示已分类的欺诈检测样本;判别密度模块,用于根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的
判别密度;每个训练数据样本的判别密度表示训练数据样本附近的其他训练数据样本的密度;样本种类模块,用于根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类;其中,样本种类包括稠密样本,边界样本以及稀疏陷入样本,稀疏陷入样本表示判别密度小于临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;平衡模块,用于针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种不平衡数据的分类方法,其特征在于,包括:将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对所述多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;所述训练数据样本表示已分类的欺诈检测样本;根据所述多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;所述每个训练数据样本的判别密度表示所述训练数据样本附近的其他训练数据样本的密度;根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类;其中,所述样本种类包括稠密样本,边界样本以及稀疏陷入样本,所述稀疏陷入样本表示所述判别密度小于所述临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;针对每个数据聚类簇,若所述数据聚类簇中的训练数据样本为少数类训练数据样本,则对所述数据聚类簇中的训练数据样本进行过采样;否则,删除所述数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与所述数据聚类簇中训练数据样本的标签相同;利用训练后的知识蒸馏网络的教师网络,生成所述多个数据聚类簇中每个训练数据样本的新标签;所述新标签包括软标签和伪标签;根据每个训练数据样本的新标签,构建学生网络损失函数,并利用所述学生网络损失函数对学生网络进行训练,得到分类预测模型;利用所述分类预测模型对待分类数据进行分类,识别欺诈行为。2.根据权利要求1所述的分类方法,其特征在于,所述根据所述多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度,包括:计算所述训练数据样本与所述数据聚类簇中其它训练数据样本之间的欧氏距离,并按照所述欧氏距离由大到小的顺序对所述其它训练数据样本进行排序;将前个其它训练数据样本作为所述训练数据样本的邻近样本,得到所述训练数据样本的邻近样本集合;通过计算公式得到所述判别密度;其中,表示第个训练数据样本的判别密度,表示所述邻近样本集合中的第个其它训练数据样本,。3.根据权利要求2所述的分类方法,其特征在于,所述根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类,包括:若所述训练数据样本的判别密度大于等于预先设置的临界密度,则将所述训练数据样本确定为稠密样本;若所述训练数据样本的判别密度小于等于预先设置的临界密度,且所述训练数据样本
的K邻近训练数据样本中存在一个或多个稠密样本,则将所述训练数据样本确定为边界样本;若所述训练数据样本的判别密度小于等于预先设置的临界密度,且所述训练数据样本的K邻近训练数据样本中不存在稠密样本,则将所述训练数据样本确定为稀疏陷入样本。4.根据权利要求3所述的分类方法,其特征在于,对所述数据聚类簇中的训练数据样本进行过采样,包括:若所述数据聚类簇中稠密样本的个数大于等于三个,则选取三个稠密样本,并在以该三个稠密样本为顶点三角形的外切圆内生成新的训练数据样本;否则,利用线性插值生成新的训练数据样本;对所述数据聚类簇中的稀疏陷入样本进行复制,得到新的训练数据样本;利用SMOTE算法对所述数据聚类簇中的边界样本进行插值,得到新的训练数据样本。5.根据权利要求4所述的分类方法,其特征在于,所述利用训练后的知识蒸馏网络的教师网络,生成所述多个...

【专利技术属性】
技术研发人员:刘利枚李彪刘星宝杨俊丰
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1