【技术实现步骤摘要】
一种变量分箱方法、装置、终端设备及存储介质
本专利技术涉及计算机
,尤其涉及一种变量分箱方法、装置、终端设备及存储介质。
技术介绍
目前,常见的分箱方法是等宽分箱或者等频分箱,等宽分箱是指将特征的取值范围分为a个等宽的区间,每个区间当作一个分箱,等频分箱是指把特征值按照从小到大的顺序排列,根据特征值的个数等分为a部分,每部分当作一个分箱。但是无论是等宽分箱还是等频分箱,都需要预先人工设定分箱的箱数,如果设定的箱数太小,则会损失较多的信息,如果设定的箱数太大,则达不到分箱的目的。若在等频分箱或者等宽分箱之后,再通过人工方式进行合并,由于这种人工合并需要依赖主观经验,无法确保提高特征预测能力,并且需要耗费较多时间,效率低下。在样本数据量较小的情况下,还可以通过人工方式分析特征值的分布情况,并根据分布情况对特征值进行人工分段,进行分箱,但是,一方面,这种方式依赖主观经验,并且特征值的分布并不能真实的反映样本变量本身的特征,无法确保提高模型预测能力,另一方面给,在样本数据量巨大的情况下,人工方式会带来巨大的工作量,导致分箱效率低。
技术实现思路
本专利技术实施例提供一种变量分箱方法、装置、终端设备及存储介质,以解决现有技术中等频分箱或等宽分箱的分箱结果不准确,以及分箱效率低的问题。第一方面,本专利技术实施例提供一种变量分箱方法,包括:获取样本数据;根据预设的变量配置,从所述样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值,其中,m为大于1的正整数;将m个所述特征值存储到预设的特征值集合中,并设置分箱轮数k的初始值为0,以及第0轮分箱的分箱结果为空,其 ...
【技术保护点】
1.一种变量分箱方法,其特征在于,所述变量分箱方法包括:获取样本数据;根据预设的变量配置,从所述样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值,其中,m为大于1的正整数;将m个所述特征值存储到预设的特征值集合中,并设置分箱轮数k的初始值为0,以及第0轮分箱的分箱结果为空,其中,k∈[0,m‑1];针对所述特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱,计算所述特征值对应的关联指标值,得到m‑k个所述关联指标值;将m‑k个所述关联指标值中的最大值对应的特征值作为目标分裂点,在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱,作为第k+1轮分箱的分箱结果,并将该特征值从所述特征值集合中移除;若k+2达到预设的箱数阈值,则停止分箱,并将所述第k+1轮分箱的分箱结果确定为最终分箱结果,否则,对k进行加1操作后返回所述针对所述特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上,将所述名义变量分为k+2箱,计算该特征值对应的关联指标值,得到m‑k个所述关联指标值的步骤继续执行。
【技术特征摘要】
1.一种变量分箱方法,其特征在于,所述变量分箱方法包括:获取样本数据;根据预设的变量配置,从所述样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值,其中,m为大于1的正整数;将m个所述特征值存储到预设的特征值集合中,并设置分箱轮数k的初始值为0,以及第0轮分箱的分箱结果为空,其中,k∈[0,m-1];针对所述特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱,计算所述特征值对应的关联指标值,得到m-k个所述关联指标值;将m-k个所述关联指标值中的最大值对应的特征值作为目标分裂点,在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱,作为第k+1轮分箱的分箱结果,并将该特征值从所述特征值集合中移除;若k+2达到预设的箱数阈值,则停止分箱,并将所述第k+1轮分箱的分箱结果确定为最终分箱结果,否则,对k进行加1操作后返回所述针对所述特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上,将所述名义变量分为k+2箱,计算该特征值对应的关联指标值,得到m-k个所述关联指标值的步骤继续执行。2.如权利要求1所述的变量分箱方法,其特征在于,所述获取待分箱的名义变量和所述名义变量对应的m个特征值之前,所述变量分箱方法还包括:从预设的配置文件中获取分箱配置参数,其中,所述分箱配置参数包括所述箱数阈值。3.如权利要求1所述的变量分箱方法,其特征在于,所述根据预设的变量配置,从所述样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值包括:若所述变量配置为连续变量,则对所述连续变量进行等宽分箱或者等频分箱,得到初始分箱结果;根据所述初始分箱结果,确定待分箱的名义变量和所述名义变量对应的m个特征值。4.如权利要求1所述的变量分箱方法,其特征在于,所述计算所述特征值对应的关联指标值包括:若所述名义变量属于二元分类特征,则按照如下公式计算所述关联指标值:其中,IV为所述关联指标值,ni1为第i箱中根据所述二元分类特征确定的白样本的样本数,ni2为第i箱中根据所述二元分类特征确定的黑样本的样本数,n*1为所述样本数据中所述白样本的样本总数,n*2为所述样本数据中所述黑样本的样本总数。5.如权利要求1所述的变量分箱方法,其特征在于,所述计算所述特征值对应的关联指标值还包括:若所述名义变量属于多元分类特征,则按照如下公式计算所述关联指标值:其中,Gr为所述关联指标值,Y为所述样本数据的总样本集,n为根据所述多元分类特征确定的样本类别数,pg为属于第g类别的样本在所述总样本集中的占比,Gini(Y)为所述总样本集的基尼指数,Gini(Yj)为第j箱的基尼指数,Yj为第j箱的名义变量的样本集合,|Yj|为Yj中的样本数量,|Y|为所述总样本集中的样本数量。6.一种变量分箱装置,其特征在于,所述变量分箱包括:获取...
【专利技术属性】
技术研发人员:黄严汉,曾凡刚,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。