一种分箱方法和装置制造方法及图纸

技术编号:19480348 阅读:186 留言:0更新日期:2018-11-17 10:34
本发明专利技术实施例公开了一种分箱方法和装置,所述分箱方法包括:将离散变量或连续变量的取值进行分组,计算分组的权重;根据分组的权重计算离散变量或连续变量的信息熵;以分组的权重单调递增为约束条件,以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。本发明专利技术实施例提高了分箱准确性。

【技术实现步骤摘要】
一种分箱方法和装置
本专利技术实施例涉及但不限于数据处理领域,尤指一种分箱方法和装置。
技术介绍
相关的分箱方法主要有:1、使用变量的等宽长度进行分箱;2、使用变量的分位数进行分箱;3、根据实际业务场景,由专家定义分箱;4、使用无监督方法,如聚类方法对连续变量进行分箱。前三种方法主要是将连续变量进行均匀处理,平均分布到每个区间,但对于分布不均匀的数据,很容易造成误分类;第四种方法使用聚类方法,考虑到了数据的分布情况,但对于极端数据,容易孤立为一类,这给实际变量分类带来一定的困扰,极易作为异常值处理掉。另一方面,该分类结果,对于训练数据和测试数据不是同一分布的情况,容易造成泛化性能太差,影响模型的泛化性能,因而在实际工作中,使用聚类方法可能效果反而不如前三种方法。
技术实现思路
本专利技术实施例提供了一种分箱方法和装置,能够提高分箱准确性。本专利技术实施例提供了一种分箱方法,包括:将离散变量或连续变量的取值进行分组,计算分组的权重;根据分组的权重计算离散变量或连续变量的信息熵;以分组的权重单调递增为约束条件,以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。在本专利技术实施例中,所述将离散变量的取值进行分组之前,该方法还包括:将连续变量转换为离散变量。在本专利技术实施例中,当判断出所述连续变量为显著变量时,将所述连续变量转换为离散变量。在本专利技术实施例中,按照公式计算所述分组的权重;其中,WOEi为第i分组的权重,pyi为第i分组中响应客户占样本中所有响应客户的比例,pni为第i分组中未响应客户占样本中所有未响应客户的比例,#yi为第i分组中响应客户的数量,#ni为第i分组中未响应客户的数量,#yT为样本中所有响应客户的数量,#nT为样本中所有未响应客户的数量。在本专利技术实施例中,所述根据分组的权重计算离散变量或连续变量的信息熵包括:根据所述分组的权重计算所述分组的信息熵;根据所述分组的信息熵计算所述离散变量或连续变量的信息熵。在本专利技术实施例中,按照公式IVi=(pyi-pni)WOEi计算第i分组的信息熵;其中,IVi为第i分组的信息熵,pyi为第i分组中响应客户占样本中所有响应客户的比例,pni为第i分组中未响应客户占样本中所有未响应客户的比例,WOEi为第i分组的权重。在本专利技术实施例中,按照公式计算所述离散变量或连续变量的信息熵;其中,IV为所述离散变量或连续变量的信息熵,IVi为第i分组的信息熵,n为分组的个数。本专利技术实施例提出了一种分箱装置,包括:分组模块,用于将离散变量或连续变量的取值进行分组;计算模块,用于计算分组的权重;根据分组的权重计算离散变量或连续变量的信息熵;求解模块,用于以分组的权重单调递增为约束条件,以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。本专利技术实施例提出了一种分箱装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种分箱方法。本专利技术实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种分箱方法的步骤。本专利技术实施例包括:将离散变量或连续变量的取值进行分组,计算分组的权重;根据分组的权重计算离散变量或连续变量的信息熵;以分组的权重单调递增为约束条件,以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。本专利技术实施例提高了分箱准确性。本专利技术实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术实施例而了解。本专利技术实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术实施例技术方案的进一步理解,并且构成说明书的一部分,与本专利技术实施例的实施例一起用于解释本专利技术实施例的技术方案,并不构成对本专利技术实施例技术方案的限制。图1为本专利技术实施例分箱方法的流程图;图2为本专利技术实施例分箱装置的结构组成示意图。具体实施方式下文中将结合附图对本专利技术实施例进行详细说明。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。参见图1,本专利技术实施例提出了一种分箱方法,包括:步骤100、将离散变量或连续变量的取值进行分组,计算分组的权重。在本专利技术实施例中,对于连续变量,可以先将连续变量转换为离散变量,再将离散变量的取值进行分组;或者,直接将连续变量的取值进行分组;对于离散变量,直接将离散变量的取值进行分组。其中,对于连续变量,可以在判断出连续变量为显著变量时,将连续变量转换为离散变量,再将离散变量的取值进行分组;在判断出连续变量为不显著变量时,直接将连续变量的取值进行分组。其中,可以根据变量的信息熵来判断连续变量是否为显著变量,当连续变量的信息熵大于或等于预设阈值(如0.1)时,判断出连续变量为显著变量;当连续变量的信息熵小于预设阈值时,判断出连续变量为不显著变量。其中,变量的信息熵的计算过程如下:将连续变量转换为离散变量;将离散变量的取值进行分组,计算分组的权重;根据分组的权重计算离散变量的信息熵。该计算变量的信息熵的过程中,如果后续在求解分箱问题过程中需要将连续变量转换为离散变量,则转换方式和分组方式应该与步骤100保持一致;如果后续求解分箱问题过程中不需要将连续变量转换为离散变量,则分组方式应该与步骤100保持一致。本专利技术实施例中,可以根据业务需求将连续变量转换为离散变量,也就是说,离散变量的一个取值为连续变量的一个取值区间。例如,按照业务需求将连续变量的连续取值划分成最小变化的取值区间作为离散变量的一个取值。如在企业征信领域,企业工商注册时间这一维度的数值一般可精确到天,即注册了多少天,但在实际应用中,可根据实际业务需求,将它转化到“年”这一维度。这样,注册时间这一维度就从“天数”转换到“年”这一维度。即将连续变量转换为离散变量。再比如注册资本,可先以10万为间隔区间,转换成离散变量。本专利技术实施例中,分组也叫离散化、分箱等等。本专利技术实施例中,权重(WOE,WeightofEvidence)是对原始自变量的一种编码形式。要对一个变量进行WOE编码,需要首先把这个变量进行分组处理,再计算分组的权重。本专利技术实施例中,按照公式(1)计算第i分组的权重。其中,WOEi为第i分组的权重,pyi为第i分组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者1的个体)占样本(即连续变量或离散变量的所有取值)中所有响应客户的比例,pni为第i分组中未响应客户占样本中所有未响应客户的比例,#yi为第i分组中响应客户的数量,#ni为第i分组中未响应客户的数量,#yT为样本中所有响应客户的数量,#nT为样本中所有未响应客户的数量。对这个公式做一个简单变换,可以得到公式(2)也就是说,权重为当前分组中响应客户和非响应客户的比值,与所有样本中响应客户和非响应客户的比值的比值,再取对数来表示,权重越大,表示当前分组中样本响应的可能性就越大,权重越小,表示当前分组中样本响应的可本文档来自技高网...

【技术保护点】
1.一种分箱方法,包括:将离散变量或连续变量的取值进行分组,计算分组的权重;根据分组的权重计算离散变量或连续变量的信息熵;以分组的权重单调递增为约束条件,以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。

【技术特征摘要】
1.一种分箱方法,包括:将离散变量或连续变量的取值进行分组,计算分组的权重;根据分组的权重计算离散变量或连续变量的信息熵;以分组的权重单调递增为约束条件,以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。2.根据权利要求1所述的分箱方法,其特征在于,所述将离散变量的取值进行分组之前,该方法还包括:将连续变量转换为离散变量。3.根据权利要求2所述的分箱方法,其特征在于,当判断出所述连续变量为显著变量时,将所述连续变量转换为离散变量。4.根据权利要求1~3任一项所述的分箱方法,其特征在于,按照公式计算所述分组的权重;其中,WOEi为第i分组的权重,pyi为第i分组中响应客户占样本中所有响应客户的比例,pni为第i分组中未响应客户占样本中所有未响应客户的比例,#yi为第i分组中响应客户的数量,#ni为第i分组中未响应客户的数量,#yT为样本中所有响应客户的数量,#nT为样本中所有未响应客户的数量。5.根据权利要求1~3任一项所述的分箱方法,其特征在于,所述根据分组的权重计算离散变量或连续变量的信息熵包括:根据所述分组的权重计算所述分组的信息熵;根据所述分组的信息熵计算所述离散变量或连续变量的信息熵。6...

【专利技术属性】
技术研发人员:柯锦灿
申请(专利权)人:厦门集微科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1