一种数据挖掘中样本平衡化方法技术

技术编号：20425249 阅读：45 留言：0更新日期：2019-02-23 08:31

本发明专利技术公开了一种数据挖掘中样本平衡化方法，根据正负样本比例，对多数类中的样本进行等频随机划分。以多数类样本的每一分组，分别与全量的稀疏类样本进行组合，构建分类算法模型。最后使用模型集成的方法将多个模型进行融合。本发明专利技术集成了过抽样和欠抽样两种方法的优点，并提高了模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据挖掘中样本平衡化方法
本专利技术涉及一种样本平衡化方法，特别是一种数据挖掘中样本平衡化方法。
技术介绍
在消费金融行业的风控建模过程中，正负样本比例呈现极端不平衡情况，即：正常客户远远多于逾期客户、正常交易远远多于欺诈交易。在此情形下，对稀有类的正确预测比对多数类的正确预测更有价值，但是当前的分类算法是建立在均衡样本的基础之上，正负样本被等同对待。类分布的不平衡给分类器性能带来严重影响，例如：如果1%的交易是欺诈交易，分类器在预测时将所有交易全部预测为正常交易也可以得到99%的预测准确率，即便它没有检测到任何欺诈交易。为了应对样本的非均衡化问题，有以下几种处理思路：1、过采样和欠采样：过采样是对稀有类进行重复采样，过采样技术容易放大稀有类中的噪声，导致模型过拟合，因为一些噪声样本可能被多次复制。欠采样是对多数类进行随机抽样，该方法容易丢失大量有用信息，甚至改变决策边界。在实际应用中通常将过采样和欠采样结合使用。2、样本加权：在分类算法过程中，根据正负样本比例，对稀有类的样本赋予更高的权重，该方法与过抽样技术类似，也容易导致噪声放大从而引起过拟合。3、惩罚矩阵：惩罚矩阵是对模型预测的结果中错误预测的样本进行惩罚。由于欺诈交易带来的损失远大于正常交易带来的收益，因此应该给两种错误腹部不同的惩罚权重。4、蒙特卡洛模拟：依照稀有类中的样本的分布特征，模拟出更多的随机样本，从而增加稀有类中的样本量。该技术有一个危险的缺陷：如果生成随机样本的模式并不像设想的那样是随机数，而却构成一些微妙的非随机模式，那么整个的模拟（及其预测结果）都可能是错的。以上几种方案对于...

【技术保护点】
1.一种数据挖掘中样本平衡化方法，其特征在于包含以下步骤：步骤一：将准备好正样本和负样本分成训练集和测试集；步骤二：统计训练集的正样本的数量pos_num和负样本的数量neg_num，并计算正样本和负样本的比值pos_neg_r = pos_num/neg_num；步骤三：对训练集的正负样本比值pos_neg_r四舍五入，取最相近的正整数，得到pos_neg_rN；步骤四：将训练集的正样本随机分成pos_neg_rN组，每组中的正样本量相同；步骤五：对训练集的每一组正样本，分别与全体负样本进行组合，使用组合后的数据建模，可得到pos_neg_rN个分类模型；步骤六：将训练得到的pos_neg_rN个分类模型分别应用于同一个测试集，得到测试集中每个样本的概率预测值p；步骤七：对每个预测样本的pos_neg_rN个p值求均值，得到每个测试样本真实的预测概率P。

【技术特征摘要】
1.一种数据挖掘中样本平衡化方法，其特征在于包含以下步骤：步骤一：将准备好正样本和负样本分成训练集和测试集；步骤二：统计训练集的正样本的数量pos_num和负样本的数量neg_num，并计算正样本和负样本的比值pos_neg_r=pos_num/neg_num；步骤三：对训练集的正负样本比值pos_neg_r四舍五入，取最相近的正整数，得到pos_neg_rN；步骤四：将训练集的正样本随机分成pos_neg_rN组，每组中的正样本量相同；步骤五：对训练集的每一组正样本，分别与全体负样本进行组合，使用组合后的数据建模，可得到pos_neg_rN个分类模型；步骤六：将训练得到的pos_neg_rN个分类模型分别应用于同一个测试集，得到测试集中每个样本的概率预测值p；步骤七：对每个预测样本的pos_neg_rN个p值求均值，得到每个测试样本真实的预测概率P。2.按照权利要求1所述的一种数据挖掘中样本平衡化方法，...

【专利技术属性】
技术研发人员：黄付杰，戚文平，
申请(专利权)人：苏宁消费金融有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人