一种基于机器学习的风控模型建立方法、系统及存储介质技术方案

技术编号:35824708 阅读:20 留言:0更新日期:2022-12-03 13:51
本发明专利技术公开了一种基于机器学习的风控模型建立方法、系统及存储介质,其包括以下步骤:包括以下步骤:步骤a.获取第一数据,并基于第一数据建立数据宽表;步骤b.对第一数据进行数据处理,得到第二数据;步骤c.对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;步骤d.对特征分箱后的变量进行特征筛选;步骤e.基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。本发明专利技术将现实问题转换为运筹优化问题,能够在较短时间内获得变量可行域上的最优解,有效提升分箱效率,实现了对风控模型的自动化建模。控模型的自动化建模。控模型的自动化建模。

【技术实现步骤摘要】
一种基于机器学习的风控模型建立方法、系统及存储介质


[0001]本专利技术涉及信贷风控
,特别是一种基于机器学习的风控模型建立方法、系统及计算机可读存储介质。

技术介绍

[0002]目前,机器学习算法已被广泛应用到风控、营销、催收等多个场景中。
[0003]在风控领域,基于风险厌恶考虑,对模型可解释性要求较高,从数据生成、变量衍生、变量筛选、模型选择中对解释性要求都较高。因此,在风控的决策策略或风控模型开发中,特别是在数据规模量不足或产品处于培育期时,风控建模对变量的可解释性及单调性有较高要求。
[0004]然而,现有技术中对变量的分箱主要是通过决策树、卡方、等频或者等距分箱为主,对于较小批量的数据,其分箱业务解释性较弱,单调性的指标由于受限于样本数量和分箱方法,导致其分箱不够单调,进而难以进一步应用于生产和规则中,业务解释性较弱。或者,分箱在训练集单调,但是在测试集未单调。因此,现有技术在分箱过程中,往往需要人为干预,进行分箱的调整,使其符合业务逻辑或特定分布,需要耗费大量时间。

技术实现思路

[0005]本专利技术的主要目的在于提供了一种基于机器学习的风控模型建立方法、系统及存储介质,旨在解决现有技术中,分箱过程往往需要人为干预,进行分箱的调整,使其符合业务逻辑或特定分布,需要耗费大量时间的技术问题。
[0006]为实现上述目的,本专利技术提供了一种基于机器学习的风控模型建立方法,其包括以下步骤:步骤a.获取第一数据,并基于第一数据建立数据宽表;步骤b.对第一数据进行数据处理,得到第二数据,所述数据处理至少包括数据清洗、特征衍生;步骤c.对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;第一变量为非数值型变量,第二变量为数值型变量;步骤d.对特征分箱后的变量进行特征筛选;步骤e.基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。
[0007]可选的,所述第一数据至少包括客户申请流水号、客户编号、查询时间其中之一。
[0008]可选的,所述步骤b具体包括如下步骤:所述步骤b具体包括如下步骤:b1.基于第一数据的变量,计算变量的缺失值、共线性、信息价值;b2.基于变量的缺失值、共线性、信息价值以及预设过滤条件,对变量数据进行数据清洗;b3.基于数据清洗后的第一数据进行特征构造,并对变量特征进行特征衍生,得到第二数据;特征衍生方法至少包括:计算变量特征的近度、频度、值度,进行特征衍生;所述近度为最近一次发生某一动作的时间,频度为某一时间段内发生某一相同动作的次数,值度为某一时间段内某一动作涉及的金额或等值金额。
[0009]可选的,所述步骤c中,第一预设特征分箱规则为采用决策树或卡方分箱方式进行
特征分箱,第二预设特征分箱规则为采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱。
[0010]可选的,采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱,至少包括如下步骤:
[0011]S1.对每个需要单调性分箱的变量,构建一个长为M、宽为N的决策变量矩阵Fx
i,j

[0012][0013]其中,M为单个变量最大精度数量,即初始化分箱时的最密区分数,N为变量最终最大分箱数量,即最终单调性分箱的最大分箱数量,且M={1,...,m,...,Maa},N={1,...,n,...,Naa},i属于集合M,j属于集合N;
[0014]S2.基于决策变量矩阵,定义整数规划目标函数Z,并对目标函数取最大值Max Z:
[0015]Max Z=∑
j∈N
(∑
p∈P
abs(∑
i∈M
Fx
i,j
*(zb3
i

zb1
i
*avg_bad*avg_bad_rate
p
)));
[0016]其中,zb1
i
为各M分箱中的样本个数,zb2
i
为各M分箱中的样本坏样本比例,zb3
i
为各M分箱中的样本坏样本数量,avg_bad_rate
p
为样本,p属于P集合,P为坏样本逾期率乘数,P={1,...,p,...,Paa},Avg_bad为样本的平均逾期率;
[0017]S3.根据预设约束条件规则,求解出决策变量矩阵的可行解,并将计算结果作为最优分箱值;若无可行解,则特征变量转用卡方分箱或决策树方式,获取最优分箱值。
[0018]可选的,所述预设约束条件规则为同时满足以下约束条件:第一约束条件:约束方程每列均要使用至少一个子分箱;第二约束条件:约束每个最大精度数的子分箱均要被使用;第三约束条件:约束首列必须从首行开启,且不能反复;第四约束条件:约束末列必须在末列结束,且不能反复;第五约束条件:约束中间列不能出现反复,且仅允许选择一次连续的分箱;第六约束条件:对中间相邻列进行约束,且仅允许相邻列所选择的变量按行降序选择;第七约束条件:为单调性假设,且仅允许变量具有具有单调递增或单调递减规律。
[0019]可选的,所述步骤d具体包括如下步骤:d1.对特征分箱后的变量进行WOE赋值,计算特征分箱后的变量的群体稳定性指标、信息价值、皮尔森相关系数、方差膨胀因子;并根据对应预设阈值,进行特征过滤;d2.通过Embedded嵌入法对过滤后的特征进行筛选;d3.获取入模特征,并对其进行逐步回归,使得p值符合预设标准;d4.对部分特征进行二次逐步回归,使得p值符合预设标准,并且所有回归系数均大于0;d5.对最终模型的群体稳定性指标、信息价值、皮尔森相关系数、方差膨胀因子、P值、回归系数进行检验,确保符合对应要求。
[0020]可选的,所述步骤e具体包括如下步骤:e1.基于特征筛选结果,建立LR模型;e2.对LR模型的效果进行检验,判断其效果是否符合模型效果标准;若是,则生成最终模型,并将最终模型转换为评分卡指标;e3.基于评分卡指标,通过样本分布情况,制定并生成对应的应用策略。
[0021]此外,为实现上述目的,本专利技术还提供一种基于机器学习的风控模型建立系统,其特征在于,包括:数据宽表建立模块,用于获取第一数据,并基于第一数据建立数据宽表;数据处理模块,用于对第一数据进行数据处理,得到第二数据,所述数据处理至少包括数据清洗、特征衍生;特征分箱模块,用于对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;第
一变量为非数值型变量,第二变量为数值型变量;特征筛选模块,用于对特征分箱后的变量进行特征筛选;模型建立模块,用于基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。
[0022]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于机器学习的风本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的风控模型建立方法,其特征在于,包括以下步骤:步骤a.获取第一数据,并基于第一数据建立数据宽表;步骤b.对第一数据进行数据处理,得到第二数据,所述数据处理至少包括数据清洗、特征衍生;步骤c.对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;第一变量为非数值型变量,第二变量为数值型变量;步骤d.对特征分箱后的变量进行特征筛选;步骤e.基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。2.根据权利要求1所述的一种基于机器学习的风控模型建立方法,其特征在于:所述第一数据至少包括客户申请流水号、客户编号、查询时间其中之一。3.根据权利要求1所述的一种基于机器学习的风控模型建立方法,其特征在于:所述步骤b具体包括如下步骤:b1.基于第一数据的变量,计算变量的缺失值、共线性、信息价值;b2.基于变量的缺失值、共线性、信息价值以及预设过滤条件,对变量数据进行数据清洗;b3.基于数据清洗后的第一数据进行特征构造,并对变量特征进行特征衍生,得到第二数据;特征衍生方法至少包括:计算变量特征的近度、频度、值度,进行特征衍生;所述近度为最近一次发生某一动作的时间,频度为某一时间段内发生某一相同动作的次数,值度为某一时间段内某一动作涉及的金额或等值金额。4.根据权利要求1所述的一种基于机器学习的风控模型建立方法,其特征在于:所述步骤c中,第一预设特征分箱规则为采用决策树或卡方分箱方式进行特征分箱,第二预设特征分箱规则为采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱。5.根据权利要求4所述的一种基于机器学习的风控模型建立方法,其特征在于:采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱,至少包括如下步骤:S1.对每个需要单调性分箱的变量,构建一个长为M、宽为N的决策变量矩阵Fx
i,j
:其中,M为单个变量最大精度数量,即初始化分箱时的最密区分数,N为变量最终最大分箱数量,即最终单调性分箱的最大分箱数量,且M={1,...,m,...,Maa},N={1,...,n,...,Naa},i属于集合M,j属于集合N;S2.基于决策变量矩阵,定义整数规划目标函数Z,并对目标函数取最大值Max Z,Max Z=∑
j∈N
(∑
p∈P
abs(∑
i∈M
Fx
i,j
*(zb3
i

zb1
i
*avg_bad*avg_bad_rate
p
)));其中,zb1
i
为各M分箱中的样本个数,zb2
i
为各M分箱中的样本坏样本比例,zb3
i
为各M分箱中的样本坏样本数量,avg_bad_rate...

【专利技术属性】
技术研发人员:郑文晖刘捷林晓光
申请(专利权)人:厦门国际银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1