【技术实现步骤摘要】
风控模型入模变量最小熵分箱方法
本专利技术涉及风险控制
,具体涉及风控模型入模变量最小熵分箱方法。
技术介绍
风控建模在现代金融的自动化风控中发挥着举足轻重的作用,当前,风控模型大多基于逻辑回归和决策树等机器学习模型,通过历史借贷样本的训练建立用户行为和信用之间的映射关系。风控模型从样本中学习的特性决定了样本集和入模变量是影响模型有效性的关键因素之一。风控建模过程中,为了增强模型的稳定性和避免过拟合,同时增加模型结果的可解释性,通常会对模型入模变量中的连续变量离散化,即分箱。在常用的分箱方法中,等距分箱和等频分箱由于没有考虑变量本身的分布情况,通常分箱的效果不佳。卡方分箱需要人为设定卡方阈值,依赖专家经验,较为复杂。
技术实现思路
针对现有技术的不足,本专利技术提供一种最小熵分箱方法,该方法以变量分箱后熵最小为目标,仅需要预设分箱数,并通过启发式搜索方法获取最优的分箱方案。最小熵的优化目标使变量分箱后箱内差异小和箱间差异大,从而最大程度保留了变量对于风控模型分类的价值,达到提升风控模型训练和
【技术保护点】
1.一种风控模型入模变量最小熵分箱方法,其特征在于,包括以下步骤:/nS1:获取类别平衡的建模样本集;/nS2:针对建模样本集,通过相关性和关联性分析筛选风控模型的入模变量,并进行预处理;/nS3:将入模变量中的连续变量分别预设一个分箱数,并针对各变量进行多次随机分箱,获得一组分箱方案;/nS4:在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法,多次迭代获得全局最优分箱方法;/nS5:将分箱后的变量进行WOE转换等处理后输入风控模型进行训练。/n
【技术特征摘要】
1.一种风控模型入模变量最小熵分箱方法,其特征在于,包括以下步骤:
S1:获取类别平衡的建模样本集;
S2:针对建模样本集,通过相关性和关联性分析筛选风控模型的入模变量,并进行预处理;
S3:将入模变量中的连续变量分别预设一个分箱数,并针对各变量进行多次随机分箱,获得一组分箱方案;
S4:在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法,多次迭代获得全局最优分箱方法;
S5:将分箱后的变量进行WOE转换等处理后输入风控模型进行训练。
2.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S1中的建模样本集,通过原始样本集的重采样获取。重采样包括欠采样和过采样两种方法。
3.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S2中通过相关性和关联性分析筛选风控模型的入模变量,并进行预处理,包括以下步骤:
S2.1在建模样本集的全变量中筛选出对类别变量影响最大的变量子集,作为风控模型的入模变量,其中变量对类别变量影响的衡量可以通过相关性和关联性分析。
S2.2对筛选出的变量子集进行缺失值填充、异常值替换和哑变量转换等预处理,变量类型包含名义变量、顺序变量和连续变量,预处理的方式根据变量类型和风控模型的输入要求而定。
...
【专利技术属性】
技术研发人员:刘星辰,陈晓峰,麻沁甜,
申请(专利权)人:上海勃池信息技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。