数据处理的方法、装置、存储介质及电子设备制造方法及图纸

技术编号：24252279 阅读：32 留言：0更新日期：2020-05-22 23:57

本发明专利技术实施例提供一种数据处理的方法、装置、存储介质及电子设备，该方法包括：基于样本数据的柯尔莫可洛夫‑斯米洛夫KS值确定备选分界点集合；基于分箱组数以及分箱的信息值IV从所述备选分界点集合中确定目标分界点；获取所述样本数据基于所述目标分界点的分箱结果；基于所述分箱结果对模型进行训练。通过这种基于KS值以及IV的分箱方式对样本数据离散化，将对模型的预测结果具有相同作用的样本数据分到一个箱内，提升了训练的模型的稳定性以及准确性，降低模型过拟合的风险。

Data processing methods, devices, storage media and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
数据处理的方法、装置、存储介质及电子设备
本专利技术涉及计算机
，具体而言，涉及一种数据处理的方法、装置、存储介质及电子设备。
技术介绍
一般情况下，在构建模型时，需要对样本变量离散化，利用离散化后的样本对模型进行训练，训练的模型会更稳定，也会降低模型过拟合的风险。例如，在建立申请评分卡模型时的逻辑回归Logistic模型就需要对样本变量进行离散化。样本离散化通常采用分箱法。分箱对异常数据有很强的鲁棒性、在逻辑回归模型中，将样本变量离散化为N个哑变量后，每个哑变量有单独的权重，相当于为模型引入了非线性特征，能够提升模型表达能力，加大拟合，提升模型的精准度。因此，在建模数据的预处理的过程中，分箱(即样本离散化)往往是较为核心一环。样本分箱的优劣往往会影响模型的评分效果。目前，常见的分箱可分为无监督分箱以及有监督分箱。其中，无监督分箱可以分为：等距分箱：按照相同距离将数据分成几等份。等频分箱：将数据分成几等份，每等份数据里面的个数是一样的。有监督分箱需要通过标签计算划分标准，...

【技术保护点】
1.一种数据处理的方法，其特征在于，所述方法包括：/n基于样本数据的柯尔莫可洛夫-斯米洛夫KS值确定备选分界点集合；/n基于分箱组数以及分箱的信息值IV从所述备选分界点集合中确定目标分界点；/n获取所述样本数据基于所述目标分界点的分箱结果；/n基于所述分箱结果对模型进行训练。/n

【技术特征摘要】
1.一种数据处理的方法，其特征在于，所述方法包括：
基于样本数据的柯尔莫可洛夫-斯米洛夫KS值确定备选分界点集合；
基于分箱组数以及分箱的信息值IV从所述备选分界点集合中确定目标分界点；
获取所述样本数据基于所述目标分界点的分箱结果；
基于所述分箱结果对模型进行训练。

2.如权利要求1所述的方法，其特征在于，基于所述样本数据的KS值确定备选分界点集合，包括：
基于所述样本数据的KS值对所述样本数据进行循环分箱，基于满足预设条件的分箱结果确定备选分界点集合。

3.如权利要求2所述的方法，其特征在于，基于所述样本数据的KS值对所述样本数据进行循环分箱，基于满足预设条件的分箱结果确定备选分界点集合，包括：
获取所述样本数据的分箱结果；
判断所述分箱结果是否满足所述预设条件；
若判断结果为否，基于所述分箱结果的KS值进行分箱，更新所述样本数据的分箱结果；
若判断结果为是，基于所述分箱结果确定备选分界点集合。

4.如权利要求3所述的方法，其特征在于，获取所述样本数据的分箱结果，包括：获取更新后的所述样本数据的分箱结果，以及获取所述样本数据的初始分箱结果；
其中，获取所述样本数据的初始分箱结果，包括：
计算所述样本数据的KS值，基于所述KS值将所述样本数据分箱，以获取所述样本数据的初始分箱结果。

5.如权利要求1所述的方法，其特征在于，基于分箱组数以及分箱的信息值IV从所述备选分界点集合中确定目标分界点，包括：

【专利技术属性】
技术研发人员：付小勇，
申请(专利权)人：同盾控股有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人