【技术实现步骤摘要】
一种基于机器学习的风控模型建立方法、系统及存储介质
[0001]本专利技术涉及信贷风控
,特别是一种基于机器学习的风控模型建立方法、系统及计算机可读存储介质。
技术介绍
[0002]目前,机器学习算法已被广泛应用到风控、营销、催收等多个场景中。
[0003]在风控领域,基于风险厌恶考虑,对模型可解释性要求较高,从数据生成、变量衍生、变量筛选、模型选择中对解释性要求都较高。因此,在风控的决策策略或风控模型开发中,特别是在数据规模量不足或产品处于培育期时,风控建模对变量的可解释性及单调性有较高要求。
[0004]然而,现有技术中对变量的分箱主要是通过决策树、卡方、等频或者等距分箱为主,对于较小批量的数据,其分箱业务解释性较弱,单调性的指标由于受限于样本数量和分箱方法,导致其分箱不够单调,进而难以进一步应用于生产和规则中,业务解释性较弱。或者,分箱在训练集单调,但是在测试集未单调。因此,现有技术在分箱过程中,往往需要人为干预,进行分箱的调整,使其符合业务逻辑或特定分布,需要耗费大量时间。
技术实现思路
[0005]本专利技术的主要目的在于提供了一种基于机器学习的风控模型建立方法、系统及存储介质,旨在解决现有技术中,分箱过程往往需要人为干预,进行分箱的调整,使其符合业务逻辑或特定分布,需要耗费大量时间的技术问题。
[0006]为实现上述目的,本专利技术提供了一种基于机器学习的风控模型建立方法,其包括以下步骤:步骤a.获取第一数据,并基于第一数据建立数据宽表;步骤b.对第一数据进行 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的风控模型建立方法,其特征在于,包括以下步骤:步骤a.获取第一数据,并基于第一数据建立数据宽表;步骤b.对第一数据进行数据处理,得到第二数据,所述数据处理至少包括数据清洗、特征衍生;步骤c.对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;第一变量为非数值型变量,第二变量为数值型变量;步骤d.对特征分箱后的变量进行特征筛选;步骤e.基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。2.根据权利要求1所述的一种基于机器学习的风控模型建立方法,其特征在于:所述第一数据至少包括客户申请流水号、客户编号、查询时间其中之一。3.根据权利要求1所述的一种基于机器学习的风控模型建立方法,其特征在于:所述步骤b具体包括如下步骤:b1.基于第一数据的变量,计算变量的缺失值、共线性、信息价值;b2.基于变量的缺失值、共线性、信息价值以及预设过滤条件,对变量数据进行数据清洗;b3.基于数据清洗后的第一数据进行特征构造,并对变量特征进行特征衍生,得到第二数据;特征衍生方法至少包括:计算变量特征的近度、频度、值度,进行特征衍生;所述近度为最近一次发生某一动作的时间,频度为某一时间段内发生某一相同动作的次数,值度为某一时间段内某一动作涉及的金额或等值金额。4.根据权利要求1所述的一种基于机器学习的风控模型建立方法,其特征在于:所述步骤c中,第一预设特征分箱规则为采用决策树或卡方分箱方式进行特征分箱,第二预设特征分箱规则为采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱。5.根据权利要求4所述的一种基于机器学习的风控模型建立方法,其特征在于:采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱,至少包括如下步骤:S1.对每个需要单调性分箱的变量,构建一个长为M、宽为N的决策变量矩阵Fx
i,j
:其中,M为单个变量最大精度数量,即初始化分箱时的最密区分数,N为变量最终最大分箱数量,即最终单调性分箱的最大分箱数量,且M={1,...,m,...,Maa},N={1,...,n,...,Naa},i属于集合M,j属于集合N;S2.基于决策变量矩阵,定义整数规划目标函数Z,并对目标函数取最大值Max Z,Max Z=∑
j∈N
(∑
p∈P
abs(∑
i∈M
Fx
i,j
*(zb3
i
‑
zb1
i
*avg_bad*avg_bad_rate
p
)));其中,zb1
i
为各M分箱中的样本个数,zb2
i
为各M分箱中的样本坏样本比例,zb3
i
为各M分箱中的样本坏样本数量,avg_bad_rate...
【专利技术属性】
技术研发人员:郑文晖,刘捷,林晓光,
申请(专利权)人:厦门国际银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。