一种变量分箱方法、装置、终端设备及存储介质制造方法及图纸

技术编号：19691829 阅读：50 留言：0更新日期：2018-12-08 11:10

本发明专利技术涉及计算机技术领域，提供了一种变量分箱方法、装置、终端设备及存储介质，变量分箱方法包括：获取样本数据；根据预设的变量配置，从样本数据中确定待分箱的名义变量和该名义变量对应的特征值；将特征值存储到预设的特征值集合中；针对特征值集合中的每个特征值，以该特征值为测试分裂点将名义变量分为两箱，并计算特征值对应的关联指标值；将关联指标值中的最大值对应的特征值作为目标分裂点执行分箱操作，并将该特征值从所述特征值集合中移除；若分箱结果达到预设的箱数阈值则停止分箱，否则继续执行分箱操作。本发明专利技术的技术方案实现了基于关联指标值对名义变量进行自动分箱操作，减少人工干预及耗时，提高分箱操作的分箱效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种变量分箱方法、装置、终端设备及存储介质
本专利技术涉及计算机
，尤其涉及一种变量分箱方法、装置、终端设备及存储介质。
技术介绍
目前，常见的分箱方法是等宽分箱或者等频分箱，等宽分箱是指将特征的取值范围分为a个等宽的区间，每个区间当作一个分箱，等频分箱是指把特征值按照从小到大的顺序排列，根据特征值的个数等分为a部分，每部分当作一个分箱。但是无论是等宽分箱还是等频分箱，都需要预先人工设定分箱的箱数，如果设定的箱数太小，则会损失较多的信息，如果设定的箱数太大，则达不到分箱的目的。若在等频分箱或者等宽分箱之后，再通过人工方式进行合并，由于这种人工合并需要依赖主观经验，无法确保提高特征预测能力，并且需要耗费较多时间，效率低下。在样本数据量较小的情况下，还可以通过人工方式分析特征值的分布情况，并根据分布情况对特征值进行人工分段，进行分箱，但是，一方面，这种方式依赖主观经验，并且特征值的分布并不能真实的反映样本变量本身的特征，无法确保提高模型预测能力，另一方面给，在样本数据量巨大的情况下，人工方式会带来巨大的工作量，导致分箱效率低。
技术实现思路
本专利技术实施例提供一种变量分箱方法、装置、终端设备及存储介质，以解决现有技术中等频分箱或等宽分箱的分箱结果不准确，以及分箱效率低的问题。第一方面，本专利技术实施例提供一种变量分箱方法，包括：获取样本数据；根据预设的变量配置，从所述样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值，其中，m为大于1的正整数；将m个所述特征值存储到预设的特征值集合中，并设置分箱轮数k的初始值为0，以及第0轮分箱的分箱结果为空，其...

【技术保护点】
1.一种变量分箱方法，其特征在于，所述变量分箱方法包括：获取样本数据；根据预设的变量配置，从所述样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值，其中，m为大于1的正整数；将m个所述特征值存储到预设的特征值集合中，并设置分箱轮数k的初始值为0，以及第0轮分箱的分箱结果为空，其中，k∈[0,m‑1]；针对所述特征值集合中的每个特征值，以该特征值为测试分裂点，在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱，计算所述特征值对应的关联指标值，得到m‑k个所述关联指标值；将m‑k个所述关联指标值中的最大值对应的特征值作为目标分裂点，在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱，作为第k+1轮分箱的分箱结果，并将该特征值从所述特征值集合中移除；若k+2达到预设的箱数阈值，则停止分箱，并将所述第k+1轮分箱的分箱结果确定为最终分箱结果，否则，对k进行加1操作后返回所述针对所述特征值集合中的每个特征值，以该特征值为测试分裂点，在第k轮分箱的分箱结果的基础上，将所述名义变量分为k+2箱，计算该特征值对应的关联指标值，得到m‑k个所述关联指标值的步骤继续执行。

【技术特征摘要】
1.一种变量分箱方法，其特征在于，所述变量分箱方法包括：获取样本数据；根据预设的变量配置，从所述样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值，其中，m为大于1的正整数；将m个所述特征值存储到预设的特征值集合中，并设置分箱轮数k的初始值为0，以及第0轮分箱的分箱结果为空，其中，k∈[0,m-1]；针对所述特征值集合中的每个特征值，以该特征值为测试分裂点，在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱，计算所述特征值对应的关联指标值，得到m-k个所述关联指标值；将m-k个所述关联指标值中的最大值对应的特征值作为目标分裂点，在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱，作为第k+1轮分箱的分箱结果，并将该特征值从所述特征值集合中移除；若k+2达到预设的箱数阈值，则停止分箱，并将所述第k+1轮分箱的分箱结果确定为最终分箱结果，否则，对k进行加1操作后返回所述针对所述特征值集合中的每个特征值，以该特征值为测试分裂点，在第k轮分箱的分箱结果的基础上，将所述名义变量分为k+2箱，计算该特征值对应的关联指标值，得到m-k个所述关联指标值的步骤继续执行。2.如权利要求1所述的变量分箱方法，其特征在于，所述获取待分箱的名义变量和所述名义变量对应的m个特征值之前，所述变量分箱方法还包括：从预设的配置文件中获取分箱配置参数，其中，所述分箱配置参数包括所述箱数阈值。3.如权利要求1所述的变量分箱方法，其特征在于，所述根据预设的变量配置，从所述样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值包括：若所述变量配置为连续变量，则对所述连续变量进行等宽分箱或者等频分箱，得到初始分箱结果；根据所述初始分箱结果，确定待分箱的名义变量和所述名义变量对应的m个特征值。4.如权利要求1所述的变量分箱方法，其特征在于，所述计算所述特征值对应的关联指标值包括：若所述名义变量属于二元分类特征，则按照如下公式计算所述关联指标值：其中，IV为所述关联指标值，ni1为第i箱中根据所述二元分类特征确定的白样本的样本数，ni2为第i箱中根据所述二元分类特征确定的黑样本的样本数，n*1为所述样本数据中所述白样本的样本总数，n*2为所述样本数据中所述黑样本的样本总数。5.如权利要求1所述的变量分箱方法，其特征在于，所述计算所述特征值对应的关联指标值还包括：若所述名义变量属于多元分类特征，则按照如下公式计算所述关联指标值：其中，Gr为所述关联指标值，Y为所述样本数据的总样本集，n为根据所述多元分类特征确定的样本类别数，pg为属于第g类别的样本在所述总样本集中的占比，Gini(Y)为所述总样本集的基尼指数，Gini(Yj)为第j箱的基尼指数，Yj为第j箱的名义变量的样本集合，|Yj|为Yj中的样本数量，|Y|为所述总样本集中的样本数量。6.一种变量分箱装置，其特征在于，所述变量分箱包括：获取...

【专利技术属性】
技术研发人员：黄严汉，曾凡刚，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人