一种数据集均衡方法、装置及计算机可读存储介质制造方法及图纸

技术编号：32281721 阅读：23 留言：0更新日期：2022-02-12 19:49

本申请提供的数据集均衡方法、装置及计算机可读存储介质，涉及数据处理技术领域，通过调整原始数据集中各样本的权重参数，降低数据集合中噪声样本或者异常样本的权重影响，筛选出有利于提高模型性能的样本来衍生新的样本；同时，基于原始数据集中负样本的分布衍生得到第一衍生数据集，并根据原始数据集中的中样本的分布及样本的权重参数，衍生出第二衍生数据集；最后将原始数据集、第一衍生数据集及第二衍生数据集合并得到均衡后的目标数据集。在基于原始数据集中样本的分布衍生新样本的过程中，尽可能生成有助于性能优化的新样本并增加负样本数量，同时通过权重参数减少生成新样本过程中的噪声，规避噪声对后续业务预测模型训练的影响。练的影响。练的影响。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据集均衡方法、装置及计算机可读存储介质

[0001]本申请涉及数据处理
，具体而言，涉及一种数据集均衡方法、装置及计算机可读存储介质。

技术介绍

[0002]在实际应用中，数据集中各类别样本数据往往不同，甚至非常的不均衡。特别地，在某些业务场景下(比如，信贷审批的贷前审批环节)，针对是否对申请主体授信，建立申请评分卡，因为场景的特性，为了预测申请主体在放款后是否违约，训练样本中天然违约样本远远少于正常样本，即坏样本在整个样本集中占比极少。一般地，在二分类机器学习问题时，分类均以整体样本准确率最大为目标，每类错分代价相同，即期望训练数据集中正负样本数目相同，尽量减小差别。因为对于分类问题，梯度下降求解过程中，数据集合中类别的巨大差异，即不均衡，会导致很难收敛到最优解。
[0003]在建立申请评分卡场景下，针对模型训练的数据集的不均衡性，通常的解决方法是简单的随机过采样或者是随机欠采样，上述解决方法都存在着明显的问题。随机过采样，是以增加少数类样本的方式，来达到多数类样本和少数类样本的均衡，如若简单的复制样本，在没有为整个数据集添加新的信息来辅助之后的分类器的建立的同时，反而会使得之后在数据集上的学习问题出现过拟合的情况。随机欠采样则是将针对多数类样本处理的方法，它是通过减少多数类样本的数目来减弱多数类样本数目与少数类样本数目的差异。其他一些方法是直接使用一些样本插值方法，没有针对数据集合，细化样本集合中可能存在的异常点或者噪声，反而在样本衍生过程中，放大了数据集合中存在的噪声，使得基于此训练的模型效...

【技术保护点】

【技术特征摘要】
1.一种数据集均衡方法，其特征在于，应用于计算机设备，所述方法包括：获取清洗后的原始数据集，调整所述原始数据集中各样本的权重参数，其中，所述原始数据集中的正样本与负样本不均衡；基于所述原始数据集中负样本的分布衍生得到第一衍生数据集；基于所述原始数据集中样本的分布，将所述原始数据集中的样本划分为多个簇，并基于每个簇中样本的权重参数，衍生出新的样本，得到第二衍生数据集；将所述原始数据集、所述第一衍生数据集以及所述第二衍生数据集进行合并，得到均衡后的目标数据集。2.如权利要求1所述的数据集均衡方法，其特征在于，所述获取清洗后的原始数据集，调整所述原始数据集中各样本的权重参数的步骤，包括：将原始样本数据进行格式统一及冗余数据删除处理，由处理后的样本得到所述原始数据集；采用预测模型对所述原始数据集中的样本进行预测，得到所述原始数据集中各样本的预测概率，将所述原始数据集中预测概率大于预设概率阈值的样本的权重参数配置为第一权重参数，将所述原始数据集中预测概率不大于预设概率阈值的样本的权重参数配置为第二权重参数，其中，所述第一权重参数大于所述第二权重参数。3.如权利要求1所述的数据集均衡方法，其特征在于，所述基于所述原始数据集中负样本的分布衍生得到第一衍生数据集的步骤，包括：采用少数类别过采样技术对所述原始数据集中负样本的分布进行分析，针对所述原始数据集中第一权重参数的负样本进行插值处理得到新的负样本，由所述新的负样本组成所述第一衍生数据集。4.如权利要求1所述的数据集均衡方法，其特征在于，所述基于所述原始数据集中样本的分布，将所述原始数据集中的样本划分为多个簇，并基于每个簇中样本的权重参数，衍生出新的样本，得到第二衍生数据集的步骤，包括：针对所述原始数据集中的正样本与负样本，采用高斯混合模型对所述正样本与所述负样本进行拟合，得到所述正样本与所述负样本服从的分布；基于所述正样本与所述负样本服从的分布，将所述正样本与所述负样本分别划分为多个簇；基于每个簇中样本的权重参数，确定基于每个簇中样本衍生出新样本的数量，由所有簇中衍生出的新样本组成第二衍生数据集，其中，每个簇中样本衍生出新样本的数量与该簇中第一权重参数的样本的数量正相关。5.如权利要求1
‑
4中任意一项所述的数据集均衡方法，其特征在于，在所述将所述原始数据集、所述第一衍生数据集以及所述第二衍生数据集进行合并，得到均...

【专利技术属性】
技术研发人员：顾凌云，周轩，王存伟，
申请(专利权)人：上海冰鉴信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人