【技术实现步骤摘要】
本专利技术涉及类不平衡数据处理,更为具体地,涉及一种面向类不平衡数据的正样本增强的处理方法、系统、电子装置及存储介质。
技术介绍
1、类不平衡问题作为计算机领域备受关注问题,受到了研究者的广泛关注。若数据集中存在着一个类别比另一个类别具有明显的数量占比,称这个数据集就为不平衡数据集。传统方法一般使用的大多为平衡数据集,而在现实生活中,数据集会呈现出多种多样的不规则分布。当分类器在处理不平衡数据集时,可能会将少数类样本视为噪声从而忽略其作为数据的重要性。上述问题导致传统的机器学习方法难以识别少数类样本,无法学习到数据中潜在且可能具有重要作用的知识。在当前的研究中,研究者开展了大量的关于类不平衡的研究,并将其应用于不通领域,如故障诊断、网络入侵检测、文本分类、欺诈检测和区块链等邻域。
2、目标类相对于其他类具有非常少量的实例时,数据集就会出现类不平衡问题。由于其发生率极低,平凡分类器通常无法检测到少数类别。数据层面的预处理方法通常利用重采样去处理不平衡数据之间的不平衡比,转化数据的类分布,提高分类器的泛化能力和识别能力。
...【技术保护点】
1.一种类不平衡数据的处理方法,其特征在于,包括:
2.根据权利要求1所述的类不平衡数据的处理方法,其特征在于,所述对原始数据集进行处理,获取所有的少数类样本的近邻集合,包括如下步骤:
3.根据权利要求2所述的类不平衡数据的处理方法,其特征在于,所述通过Mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合处理,生成无标签数据样本集合包括:
4.根据权利要求3所述的类不平衡数据的处理方法,其特征在于,所述Mixup采用的计算公式为:
5.根据权利要求4所述的类不平衡数据的处理方法,其特征在于,所述基因交
...【技术特征摘要】
1.一种类不平衡数据的处理方法,其特征在于,包括:
2.根据权利要求1所述的类不平衡数据的处理方法,其特征在于,所述对原始数据集进行处理,获取所有的少数类样本的近邻集合,包括如下步骤:
3.根据权利要求2所述的类不平衡数据的处理方法,其特征在于,所述通过mixup对所述少数类样本集合和所述可近邻多数类样本的子集合进行数据融合处理,生成无标签数据样本集合包括:
4.根据权利要求3所述的类不平衡数据的处理方法,其特征在于,所述mixup采用的计算公式为:
5.根据权利要求4所述的类不平衡数据的处理方法,其特征在于,所述基因交叉采用的公式...
【专利技术属性】
技术研发人员:石磊,杨佳鹏,袁璐,杨晓辉,程南昌,
申请(专利权)人:中国传媒大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。