类不平衡数据的处理方法、系统、电子装置及存储介质制造方法及图纸

技术编号:40546723 阅读:25 留言:0更新日期:2024-03-05 19:04
本发明专利技术提供的类不平衡数据的处理方法、系统、电子装置及存储介质,其中的处理方法包括对原始数据集进行处理,获取所有的少数类样本的可近邻集合,其中,所述原始数据集包括少数类样本集合;根据所述所有的少数类样本的近邻集合,获取包含所有的可近邻多数类样本的子集合;通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合迭代处理,生成无标签数据样本集合;通过预训练的一类支持向量机对所述无标签数据样本集合经过判定,确定停止融合迭代处理。利用本发明专利技术,能够解决目前不平衡数据少数类样本的分类效果不明显的问题。

【技术实现步骤摘要】

本专利技术涉及类不平衡数据处理,更为具体地,涉及一种面向类不平衡数据的正样本增强的处理方法、系统、电子装置及存储介质。


技术介绍

1、类不平衡问题作为计算机领域备受关注问题,受到了研究者的广泛关注。若数据集中存在着一个类别比另一个类别具有明显的数量占比,称这个数据集就为不平衡数据集。传统方法一般使用的大多为平衡数据集,而在现实生活中,数据集会呈现出多种多样的不规则分布。当分类器在处理不平衡数据集时,可能会将少数类样本视为噪声从而忽略其作为数据的重要性。上述问题导致传统的机器学习方法难以识别少数类样本,无法学习到数据中潜在且可能具有重要作用的知识。在当前的研究中,研究者开展了大量的关于类不平衡的研究,并将其应用于不通领域,如故障诊断、网络入侵检测、文本分类、欺诈检测和区块链等邻域。

2、目标类相对于其他类具有非常少量的实例时,数据集就会出现类不平衡问题。由于其发生率极低,平凡分类器通常无法检测到少数类别。数据层面的预处理方法通常利用重采样去处理不平衡数据之间的不平衡比,转化数据的类分布,提高分类器的泛化能力和识别能力。

3、(1)过采本文档来自技高网...

【技术保护点】

1.一种类不平衡数据的处理方法,其特征在于,包括:

2.根据权利要求1所述的类不平衡数据的处理方法,其特征在于,所述对原始数据集进行处理,获取所有的少数类样本的近邻集合,包括如下步骤:

3.根据权利要求2所述的类不平衡数据的处理方法,其特征在于,所述通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合处理,生成无标签数据样本集合包括:

4.根据权利要求3所述的类不平衡数据的处理方法,其特征在于,所述Mixup采用的计算公式为:

5.根据权利要求4所述的类不平衡数据的处理方法,其特征在于,所述基因交叉采用的公式为:...

【技术特征摘要】

1.一种类不平衡数据的处理方法,其特征在于,包括:

2.根据权利要求1所述的类不平衡数据的处理方法,其特征在于,所述对原始数据集进行处理,获取所有的少数类样本的近邻集合,包括如下步骤:

3.根据权利要求2所述的类不平衡数据的处理方法,其特征在于,所述通过mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合处理,生成无标签数据样本集合包括:

4.根据权利要求3所述的类不平衡数据的处理方法,其特征在于,所述mixup采用的计算公式为:

5.根据权利要求4所述的类不平衡数据的处理方法,其特征在于,所述基因交叉采用的公式...

【专利技术属性】
技术研发人员:石磊杨佳鹏袁璐杨晓辉程南昌
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1