二分类不平衡数据集的平衡处理方法、装置、设备及介质制造方法及图纸

技术编号:42683308 阅读:37 留言:0更新日期:2024-09-10 12:32
本申请公开了一种二分类不平衡数据集的平衡处理方法、装置、设备及介质,涉及数据处理技术领域,包括获取工业生产活动中存在二分类不平衡问题的数据集,对数据集进行数据点划分及异常点筛选;将单面选择欠采样方法和Borderline SMOTE过采样方法结合,构建单面选择欠采样‑Borderline SMOTE混合采样算法模型,对单面选择欠采样‑Borderline SMOTE混合采样算法模型训练及测试;利用目标单面选择欠采样‑Borderline SMOTE混合采样算法模型对待处理数据集中的二分类不平衡问题进行平衡处理。本申请能够提高对二分类不平衡数据集进行平衡处理的准确性和质量,有效提高数据平衡性。

【技术实现步骤摘要】

本专利技术涉及数据处理,特别涉及一种二分类不平衡数据集的平衡处理方法、装置、设备及介质


技术介绍

1、目前,传统的机器学习算法在处理二分类不平衡数据集的预测分类问题时,会因为追求更高准确度而易导致算法结果偏向于多数类。在数据集中某类样本数量明显少于其他类样本数量,其中数量较多的称为多数类,样本数量较少的称为少数类。在二分类问题中,不同偏向带来的错分可能会导致严重的后果,在针对不平衡数据集的数据均衡方法上,目前学界主要采取以下两类:一类是基于采样的数据处理,通过从数据空间中添加或删除样本来减少不平衡数据的不平衡表现,从而改变训练数据空间的大小;第二类是以算法为中心的数据处理。然而,上述两类方法对于数据的处理大多选择单方面进行,对于复杂的二分类不平衡数据集的平衡处理,处理效果不太显著,并且可能会出现数据信息丢失、重复行可能性较大或者产生过拟合等问题,降低了对二分类不平衡数据集进行平衡处理的准确性和质量,并且无法提高数据平衡性。

2、由上可见,如何避免出现数据信息丢失、重复行可能性较大或者产生过拟合等情况,提高对二分类不平衡数据集进行平衡处理的准确本文档来自技高网...

【技术保护点】

1.一种二分类不平衡数据集的平衡处理方法,其特征在于,包括:

2.根据权利要求1所述的二分类不平衡数据集的平衡处理方法,其特征在于,所述基于密度的聚类算法对所述数据集进行数据点划分及异常点筛选,以得到划分筛选后的所述数据集,包括:

3.根据权利要求2所述的二分类不平衡数据集的平衡处理方法,其特征在于,所述对划分后的所述数据集进行异常点筛选,以得到划分筛选后的所述数据集,包括:

4.根据权利要求1所述的二分类不平衡数据集的平衡处理方法,其特征在于,所述利用划分筛选后的所述数据集对所述单面选择欠采样-Borderline SMOTE混合采样算法模型进行训练...

【技术特征摘要】

1.一种二分类不平衡数据集的平衡处理方法,其特征在于,包括:

2.根据权利要求1所述的二分类不平衡数据集的平衡处理方法,其特征在于,所述基于密度的聚类算法对所述数据集进行数据点划分及异常点筛选,以得到划分筛选后的所述数据集,包括:

3.根据权利要求2所述的二分类不平衡数据集的平衡处理方法,其特征在于,所述对划分后的所述数据集进行异常点筛选,以得到划分筛选后的所述数据集,包括:

4.根据权利要求1所述的二分类不平衡数据集的平衡处理方法,其特征在于,所述利用划分筛选后的所述数据集对所述单面选择欠采样-borderline smote混合采样算法模型进行训练及测试,包括:

5.根据权利要求1所述的二分类不平衡数据集的平衡处理方法,其特征在于,所述目标单面选择欠采样-borderline smote混合采样算法模型中,包括:lightgbm分类器、极度梯度提升树分类器、支持向量机分类器、...

【专利技术属性】
技术研发人员:胡素霞王娜王波程占刚潘曦
申请(专利权)人:湖北中烟工业有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1