【技术实现步骤摘要】
信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
本专利技术涉及信贷风控领域,特别是涉及一种信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备。
技术介绍
分类问题是有监督机器学习模型能解决的最重要问题之一,现实中的信贷风控、欺诈行为识别、推荐召回等问题均可抽象为分类问题,可以用统计机器学习模型(即狭义的机器学习模型)或深度学习模型(神经网络)来解决。其中,统计机器学习模型更多地用于表格类、结构化的数据挖掘任务上,而深度学习模型则更适用于图像识别、语音识别、自然语言处理等非结构化数据集上。目前,最主流的统计机器学习模型是逻辑斯蒂回归(LR)模型和梯度提升树(GBDT)模型,两者的适用范围较广,能用于各领域的问题、各种输入形式的数据;且均具有线性的时间复杂度,适用于较大规模的问题。逻辑斯蒂回归模型是一种线性模型,具有模型简单、可解释性较好的优点,但对于数据的人工预处理提出了较高的要求;而梯度提升树模型是一种以决策树为基分类器的集成学习模型,具有端到端(不需要人工数据预处理等干预)、调参 ...
【技术保护点】
1.一种信贷风控模型生成方法,其特征在于,包括:/n利用预先训练的基分类器节点最大深度为1的GBDT模型确定对信贷业务对象的原始属性数据进行特征工程处理;/n基于所述特征工程处理后的数据训练生成LR评分卡模型,将所述LR评分卡模型作为信贷风控模型。/n
【技术特征摘要】
1.一种信贷风控模型生成方法,其特征在于,包括:
利用预先训练的基分类器节点最大深度为1的GBDT模型确定对信贷业务对象的原始属性数据进行特征工程处理;
基于所述特征工程处理后的数据训练生成LR评分卡模型,将所述LR评分卡模型作为信贷风控模型。
2.根据权利要求1所述的信贷风控模型生成方法,其特征在于,所述特征工程处理的特征条件包括:
预筛选变量,由所述GBDT模型中每一个基分类器的根节点所表示的切分自变量表示;
分箱阈值,由所述GBDT模型中每一个基分类器的根节点所表示的与所述切分自变量的切分阈值表示。
3.根据权利要求2所述的信贷风控模型生成方法,其特征在于,所述特征工程处理包括:
基于所述预筛选变量对所述原始属性数据进行变量筛选,得到第一筛选结果;
基于所述分箱阈值对所述第一筛选结果进行分箱处理,得到分箱结果;
对所述分箱结果进行WOE编码,得到编码结果。
4.根据权利要求3所述的信贷风控模型生成方法,其特征在于,所述特征工程处理还包括:计算所述编码结果中每一列自变量的IV值;
基于IV阈值对编码结果进行变量筛选,得到第二筛选结果。
5.根据权利要求4所述的信贷风控模型生成方法,其特征在于,所述特征工程处理还包括:
对所述第二筛选结果进行基于协方差矩阵的共线性检查和基于方差膨胀系数的多重共线性检查;
删除引起共线性和多重共线性的自变量列,得到第三筛选结果。
6.根据权利要求5所述的信贷风控模型生成方法,其特征在于,所述特征工程处理还包括:对第三筛选结果进行Backwards逐步回归,得到第四筛选结果。
7.根据权利要求6所述的信贷风控模型生成方法,其特征在于,所述对第三筛选结果进行Backwards逐步回归,包括:
对所述第三筛选结果执行一次或多次以下操作,直至所述自变量列的数量小于设定阈值或直至所有自变量中最大卡方检验p值小于设定阈值;
从所述第三筛选结果中删除最大卡方检验p值对应的自变量所在的自变量列。
8.根据权利要求6所述的信贷风控模型生成方法,其特征在于,所述对第三筛选结果进行Backwards逐步回归,包括:
通过第三筛选结果和训练集的分类标签Y训练生成一个LR验证模型;
基于验证集得到LR验证模型的预测指标;
从所述第三筛选结果中删除最大卡方检验p值对应的自变量所在的自变量列,直至训练的LR验证模型的预测指标达到设定指标。
9.一种信贷风控模型生成装置,其特征在于,包括:
特征处理模块,用于利用预先训练的基分类器节点最大深度为1的GBDT模型确定对信贷业务对象的原始属性数据进行特征工程处理;
模块生成模块,用于基于所述特征工程处理后的数据训练生成LR评分卡模型,将所述LR评分卡模型作为信贷风控模型。
10.根据权利要求9所述的信贷风控模型生成装置,其特征在于,所述特征工程处理的特征条件包括:
预筛选变量,...
【专利技术属性】
技术研发人员:周曦,姚志强,陈琳,卢智聪,赵礼悦,翁谦,张博宣,曹文飞,蒋博劼,张旭,
申请(专利权)人:北京云从科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。