变量离散化控制方法及系统技术方案

技术编号:26173094 阅读:46 留言:0更新日期:2020-10-31 13:54
本发明专利技术揭示了一种变量离散化控制方法及系统,所述控制方法包括:步骤S1、获取变量;步骤S2、对变量进行离散化处理;步骤S3、获取到变量的离散化分箱的分箱切点后,根据切点变量进行分箱和编码。步骤S2具体包括:获取初始变量切点,形成N个候选切点;按照一定概率定义遗传算法个体;在初始种群基础上,通过进化操作产生下一代种群;在此过程中逐步淘汰掉数值低于设定阈值的个体,增加适应度函数值高的个体;进化若干代后,适应度函数值最高的个体即为选中的最优个体向量,最优个体向量的分割点即为该变量的最优切点;将最优个体向量的分割点作为离散化分箱的分箱切点。本发明专利技术提出的变量离散化控制方法及系统,可加快进化时间,提高数据处理速度。

【技术实现步骤摘要】
变量离散化控制方法及系统
本专利技术属于变量处理
,涉及一种变量处理方法,尤其涉及一种变量离散化控制方法及系统。
技术介绍
为了解决机器学习建模时特征数据的变化范围较大,异常点较多容易引起的过拟合或者欠拟合问题,将连续特征数据进行离散化很有必要。遗传算法是一种借鉴生物进化论的寻找最优解的算法,它将要解决的问题模拟成一个生物进化的过程,遵循“优胜劣汰”的原则,进化出最优的个体。离散化可以看成时选择最优切分点的问题,可以结合遗传算法选择合适的适应度函数转化为一个优化问题。在现有的连续数据离散化的实际应用中,主要的方法有两类:有监督离散化和无监督离散化,其中有监督离散化也包括遗传算法。现有的遗传算法在离散化的应用一般是给定切点个数,IV值作为适应度函数,对于离散程度较高的变量效果不错,但对于粒度很细的连续值不够有效。遗传算法在离散化的应用中只有一个框架,无论是个体的定义、适应度函数的设计还是初始种群的初始化方法,都没有统一的具体方案。尤其在如何既考虑离散化效果又兼顾时间复杂度的方面,现有技术没有给出客观的结论。有鉴于此,本文档来自技高网...

【技术保护点】
1.一种变量离散化控制方法,其特征在于,所述控制方法包括:/n步骤S1、获取变量;/n步骤S2、对变量进行离散化处理;具体包括:/n-步骤S21、获取初始变量切点,形成N个候选切点;/n-步骤S22、按照一定概率定义遗传算法个体,个体为长度为N,取值为0或者1的向量;其中,0代表不切割,1代表切割;定义产生种群的方式,重复M次,产生一个包含M个个体的初始种群;/n-步骤S23、在初始种群基础上,通过进化操作产生下一代种群,进化操作包括选择、交叉、变异中的至少一个;在此过程中逐步淘汰掉数值低于设定阈值的个体,增加适应度函数值高的个体;所述数值为适应度函数取值;/n所述适应度函数公式为:/nfit...

【技术特征摘要】
1.一种变量离散化控制方法,其特征在于,所述控制方法包括:
步骤S1、获取变量;
步骤S2、对变量进行离散化处理;具体包括:
-步骤S21、获取初始变量切点,形成N个候选切点;
-步骤S22、按照一定概率定义遗传算法个体,个体为长度为N,取值为0或者1的向量;其中,0代表不切割,1代表切割;定义产生种群的方式,重复M次,产生一个包含M个个体的初始种群;
-步骤S23、在初始种群基础上,通过进化操作产生下一代种群,进化操作包括选择、交叉、变异中的至少一个;在此过程中逐步淘汰掉数值低于设定阈值的个体,增加适应度函数值高的个体;所述数值为适应度函数取值;
所述适应度函数公式为:
fitness=IV(individual)*(1-α*sum(individual));
其中,IV(individual)为IV值,1-α*sum(individual)为惩罚项,α为惩罚项系数;惩罚项的作用方式如下,sum(individual)为分箱个数,当sum(individual)增大时,1-α*sum(individual)减小,fitness减小;以此达到控制分箱个数的目的;调整参数时,先将α调整到合适的范围,再调整其余参数;
-步骤S24、进化若干代后,适应度函数值最高的个体即为选中的最优个体向量,最优个体向量的分割点即为该变量的最优切点;
-步骤S25、将最优个体向量的分割点作为离散化分箱的分箱切点;
步骤S3、获取到变量的离散化分箱的分箱切点后,根据切点变量进行分箱和WOE编码,编码后的变量能直接进入设定模型建模。


2.一种变量离散化控制方法,其特征在于,所述控制方法包括:
步骤S1、获取变量;
步骤S2、对变量进行离散化处理;具体包括:
-步骤S21、获取初始变量切点,形成N个候选切点;
-步骤S22、按照一定概率定义遗传算法个体;定义产生种群的方式,重复M次,产生一个包含M个个体的初始种群;
-步骤S23、在初始种群基础上,通过进化操作产生下一代种群;在此过程中逐步淘汰掉数值低于设定阈值的个体,增加适应度函数值高的个体;所述数值为适应度函数取值;
-步骤S24、进化若干代后,适应度函数值最高的个体即为选中的最优个体向量,最优个体向量的分割点即为该变量的最优切点;
-步骤S25、将最优个体向量的分割点作为离散化分箱的分箱切点;
步骤S3、获取到变量的离散化分箱的分箱切点后,根据切点变量进行分箱和编码,编码后的变量能直接进入设定模型建模。


3.根据权利要求2所述的变量离散化方式调控方法,其特征在于:
步骤S21中,产生的遗传算法个体为长度为N,取值为0或者1的向量;其中,0代表不切割,1代表切割;将这个向量作为优化的个体;individual=[0,1,0,0,…,1,0,0]。


4.根据权利要求2所述的变量离散化方式调控方法,其特征在于:
步骤S23中,进化操作包括选择、交叉、变异中的至少一个。


5.根据权利要求2所述的变量离散化方式调控方法,其特征在于:
步骤S23中,适应度函数公式为:
fitness=IV(individual)*(1-α*sum(individual));
其中,IV(individual)为IV值,1-α*sum(individual)为惩罚项,α为惩罚项系数;惩罚项的作用方式如下,sum(individual)为分箱个数,当sum(individual)增大时,1-α*sum(individual)减小,fitness减小;以此达到控制分箱个数的目的;调整参数时,先将α调整到合适的范围,再调整其余参数。


6.一种变量离散化方式调控系统,其特征在于,所述调控系统包括:
变量获取模块,用以获取变量;
离散化处理模块,用以对变量进行离散化处理;以及
分箱编码模块,用以在获取到变量的离散...

【专利技术属性】
技术研发人员:林建明
申请(专利权)人:深圳无域科技技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1