【技术实现步骤摘要】
数据处理的方法、装置、存储介质及电子设备
本专利技术涉及计算机
,具体而言,涉及一种数据处理的方法、装置、存储介质及电子设备。
技术介绍
一般情况下,在构建模型时,需要对样本变量离散化,利用离散化后的样本对模型进行训练,训练的模型会更稳定,也会降低模型过拟合的风险。例如,在建立申请评分卡模型时的逻辑回归Logistic模型就需要对样本变量进行离散化。样本离散化通常采用分箱法。分箱对异常数据有很强的鲁棒性、在逻辑回归模型中,将样本变量离散化为N个哑变量后,每个哑变量有单独的权重,相当于为模型引入了非线性特征,能够提升模型表达能力,加大拟合,提升模型的精准度。因此,在建模数据的预处理的过程中,分箱(即样本离散化)往往是较为核心一环。样本分箱的优劣往往会影响模型的评分效果。目前,常见的分箱可分为无监督分箱以及有监督分箱。其中,无监督分箱可以分为:等距分箱:按照相同距离将数据分成几等份。等频分箱:将数据分成几等份,每等份数据里面的个数是一样的。有监督分箱需要通过标签计算划分标准, ...
【技术保护点】
1.一种数据处理的方法,其特征在于,所述方法包括:/n基于样本数据的柯尔莫可洛夫-斯米洛夫KS值确定备选分界点集合;/n基于分箱组数以及分箱的信息值IV从所述备选分界点集合中确定目标分界点;/n获取所述样本数据基于所述目标分界点的分箱结果;/n基于所述分箱结果对模型进行训练。/n
【技术特征摘要】
1.一种数据处理的方法,其特征在于,所述方法包括:
基于样本数据的柯尔莫可洛夫-斯米洛夫KS值确定备选分界点集合;
基于分箱组数以及分箱的信息值IV从所述备选分界点集合中确定目标分界点;
获取所述样本数据基于所述目标分界点的分箱结果;
基于所述分箱结果对模型进行训练。
2.如权利要求1所述的方法,其特征在于,基于所述样本数据的KS值确定备选分界点集合,包括:
基于所述样本数据的KS值对所述样本数据进行循环分箱,基于满足预设条件的分箱结果确定备选分界点集合。
3.如权利要求2所述的方法,其特征在于,基于所述样本数据的KS值对所述样本数据进行循环分箱,基于满足预设条件的分箱结果确定备选分界点集合,包括:
获取所述样本数据的分箱结果;
判断所述分箱结果是否满足所述预设条件;
若判断结果为否,基于所述分箱结果的KS值进行分箱,更新所述样本数据的分箱结果;
若判断结果为是,基于所述分箱结果确定备选分界点集合。
4.如权利要求3所述的方法,其特征在于,获取所述样本数据的分箱结果,包括:获取更新后的所述样本数据的分箱结果,以及获取所述样本数据的初始分箱结果;
其中,获取所述样本数据的初始分箱结果,包括:
计算所述样本数据的KS值,基于所述KS值将所述样本数据分箱,以获取所述样本数据的初始分箱结果。
5.如权利要求1所述的方法,其特征在于,基于分箱组数以及分箱的信息值IV从所述备选分界点集合中确定目标分界点,包括:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。