数据离散化调控方法及系统以及风险控制模型建立方法及系统技术方案

技术编号:26173957 阅读:38 留言:0更新日期:2020-10-31 13:59
本发明专利技术揭示了一种数据离散化调控方法及系统以及互联网金融领域风险控制模型建立方法及系统,所述调控方法包括:步骤S1、获取变量的属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;步骤S2、形成若干离散化模型,在不同的离散化模型中,使用不同的离散算法对变量进行离散化;步骤S3、根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型。本发明专利技术提出的金融风控模型中的变量离散化方式调控方法及系统以及互联网金融领域风险控制模型建立方法及系统,可提高处理效率及分类准确性。

【技术实现步骤摘要】
数据离散化调控方法及系统以及风险控制模型建立方法及系统
本专利技术属于数据处理
,涉及一种变量离散化调控方法,尤其涉及一种数据离散化调控方法及系统以及互联网金融领域风险控制模型建立方法及系统。
技术介绍
在信贷风险识别领域,个人特征数据的分布形态有时并不适合建立机器学习模型,比如决策树算法需要运用在离散属性上,如果离散值过多,对数据存储空间以及计算时间的要求都很高。另一方面,连续变量离散化是建模前特征工程的重要步骤,将数值范围较大的连续变量经过适宜的离散化处理之后不仅易于数据的存储,更重要的是离散化后的数据可以使得机器学习模型更具有鲁棒性,这样可以有效减少过拟合和欠拟合的问题,更好的解决金融数据挖掘中的分类问题。在现有的连续数据离散化的实际应用中,主要的方法有两类:有监督离散化和无监督离散化。无监督离散化包括等频和等距离散化,思想简单、容易实现,但没有用到标签的信息,很难获得较好的离散化效果。监督式的离散化包括卡方分箱、基于信息熵的分箱方法、基于粗糙集的离散化方法以及其他优化算法。对于信贷风险识别的方案,现有技术存本文档来自技高网...

【技术保护点】
1.一种数据离散化调控方法,其特征在于,所述调控方法包括:/n步骤S1、获取变量属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;/n步骤S2、形成若干离散化模型,根据不同变量的特征使用相对应的离散化模型对变量进行离散化;所述离散化模型包括:卡方分箱模型、MDLP模型、CAIM模型及遗传算法模型;/n步骤S3、根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型;/n对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的变量,将其分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;卡方分箱模型中...

【技术特征摘要】
1.一种数据离散化调控方法,其特征在于,所述调控方法包括:
步骤S1、获取变量属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
步骤S2、形成若干离散化模型,根据不同变量的特征使用相对应的离散化模型对变量进行离散化;所述离散化模型包括:卡方分箱模型、MDLP模型、CAIM模型及遗传算法模型;
步骤S3、根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型;
对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的变量,将其分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;卡方分箱模型中,卡方是度量两个类别相似性的一种方法,在一定置信度下,如果两个类别的卡方值越小,说明两个类别相似度越高,卡方分箱模型用来进行变量类别之间的合并;
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值、且本身区分度高于设定第五阈值的变量,将其分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;MDLP模型中,信息熵用来度量某种特定信息出现的概率,信息熵越低,特征对目标变量的分类效果越好;信息增益能表示加入新的条件后信息熵的降低程度;MDLP模型依据信息增益最大值依次寻找最优切分点;
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的变量,将其分配至卡方结合遗传算法离散化模型中,这类变量取值个数多,取值连续但同时常规有监督方法不能对其有效离散,而遗传算法的学习能力更强,能保留更多的原始信息;但是遗传算法耗时较长,先用卡方分箱对变量进行初步分箱,作为候选变量切点,再用遗传算法进行分箱;这种卡方分箱算法结合遗传算法对变量进行离散化的方法能获取好的分箱效果又不至于耗费过多时间;遗传算法模型中,设置一个适应度函数,即需要优化的目标;通过随机、选择、交叉和变异的方法优胜劣汰,找到最能满足适应度函数的切分点;
类别变量因为没有数值含义或者排序性,进行OneHot编码,但是对于类别取值较多的变量OneHot编码容易造成维度爆炸和数据稀疏;对于类别变量,用负样本比例对类别进行编码,映射为取值(0,1)的变量,将其分配至CAIM离散化模型中,所述CAIM离散化模型采用CAIM算法对变量进行离散化;CAIM模型中,计算目标变量的类别于特征属性之间的关系即CAIM值最大化,此时信息熵最低,根据CAIM值依次寻找最优切点。


2.一种数据离散化调控方法,其特征在于,所述调控方法包括:
步骤S1、获取变量属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
步骤S2、形成若干离散化模型,根据不同变量的特征使用相对应的离散化模型对变量进行离散化;
步骤S3、根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型。


3.根据权利要求2所述的数据离散化调控方法,其特征在于:
步骤S2中,所述离散化模型包括:卡方分箱模型、MDLP模型、CAIM模型及遗传算法模型。


4.根据权利要求3所述的数据离散化调控方法,其特征在于:
对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的变量,将其分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值的变量、本身区分度高于设定第五阈值的变量,将其分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的变量,将其分配至卡方结合遗传算法离散化模型中;
对于类别变量,用负样本比例对类别变量进行编码,映射为取值(0,1)的类别变量,将其分配至CAIM离散化模型中。


5.一种数据离散化调控系统,其特征在于,所述调控系统包括:
变量属性获取模块,用以获取变量的属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
离散化模型形成模块,用以形成若干离散化模型,在不同的离散化模型中,使用不同的离散算法...

【专利技术属性】
技术研发人员:林建明
申请(专利权)人:深圳无域科技技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1