数据处理的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:24252279 阅读:32 留言:0更新日期:2020-05-22 23:57
本发明专利技术实施例提供一种数据处理的方法、装置、存储介质及电子设备,该方法包括:基于样本数据的柯尔莫可洛夫‑斯米洛夫KS值确定备选分界点集合;基于分箱组数以及分箱的信息值IV从所述备选分界点集合中确定目标分界点;获取所述样本数据基于所述目标分界点的分箱结果;基于所述分箱结果对模型进行训练。通过这种基于KS值以及IV的分箱方式对样本数据离散化,将对模型的预测结果具有相同作用的样本数据分到一个箱内,提升了训练的模型的稳定性以及准确性,降低模型过拟合的风险。

Data processing methods, devices, storage media and electronic equipment

【技术实现步骤摘要】
数据处理的方法、装置、存储介质及电子设备
本专利技术涉及计算机
,具体而言,涉及一种数据处理的方法、装置、存储介质及电子设备。
技术介绍
一般情况下,在构建模型时,需要对样本变量离散化,利用离散化后的样本对模型进行训练,训练的模型会更稳定,也会降低模型过拟合的风险。例如,在建立申请评分卡模型时的逻辑回归Logistic模型就需要对样本变量进行离散化。样本离散化通常采用分箱法。分箱对异常数据有很强的鲁棒性、在逻辑回归模型中,将样本变量离散化为N个哑变量后,每个哑变量有单独的权重,相当于为模型引入了非线性特征,能够提升模型表达能力,加大拟合,提升模型的精准度。因此,在建模数据的预处理的过程中,分箱(即样本离散化)往往是较为核心一环。样本分箱的优劣往往会影响模型的评分效果。目前,常见的分箱可分为无监督分箱以及有监督分箱。其中,无监督分箱可以分为:等距分箱:按照相同距离将数据分成几等份。等频分箱:将数据分成几等份,每等份数据里面的个数是一样的。有监督分箱需要通过标签计算划分标准,常见的有监督分箱有卡本文档来自技高网...

【技术保护点】
1.一种数据处理的方法,其特征在于,所述方法包括:/n基于样本数据的柯尔莫可洛夫-斯米洛夫KS值确定备选分界点集合;/n基于分箱组数以及分箱的信息值IV从所述备选分界点集合中确定目标分界点;/n获取所述样本数据基于所述目标分界点的分箱结果;/n基于所述分箱结果对模型进行训练。/n

【技术特征摘要】
1.一种数据处理的方法,其特征在于,所述方法包括:
基于样本数据的柯尔莫可洛夫-斯米洛夫KS值确定备选分界点集合;
基于分箱组数以及分箱的信息值IV从所述备选分界点集合中确定目标分界点;
获取所述样本数据基于所述目标分界点的分箱结果;
基于所述分箱结果对模型进行训练。


2.如权利要求1所述的方法,其特征在于,基于所述样本数据的KS值确定备选分界点集合,包括:
基于所述样本数据的KS值对所述样本数据进行循环分箱,基于满足预设条件的分箱结果确定备选分界点集合。


3.如权利要求2所述的方法,其特征在于,基于所述样本数据的KS值对所述样本数据进行循环分箱,基于满足预设条件的分箱结果确定备选分界点集合,包括:
获取所述样本数据的分箱结果;
判断所述分箱结果是否满足所述预设条件;
若判断结果为否,基于所述分箱结果的KS值进行分箱,更新所述样本数据的分箱结果;
若判断结果为是,基于所述分箱结果确定备选分界点集合。


4.如权利要求3所述的方法,其特征在于,获取所述样本数据的分箱结果,包括:获取更新后的所述样本数据的分箱结果,以及获取所述样本数据的初始分箱结果;
其中,获取所述样本数据的初始分箱结果,包括:
计算所述样本数据的KS值,基于所述KS值将所述样本数据分箱,以获取所述样本数据的初始分箱结果。


5.如权利要求1所述的方法,其特征在于,基于分箱组数以及分箱的信息值IV从所述备选分界点集合中确定目标分界点,包括:

【专利技术属性】
技术研发人员:付小勇
申请(专利权)人:同盾控股有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1