一种基于多目标优化的风控模型构建方法、装置和电子设备制造方法及图纸

技术编号:29940096 阅读:53 留言:0更新日期:2021-09-04 19:23
本发明专利技术涉及计算机技术领域,具体涉及一种基于多目标优化的风控模型构建方法、装置和电子设备,包括:获取业务样本数据集,对所述业务样本数据集中的每一个样本对应的特征组设定多个相应的标签;根据所述标签对所述业务样本数据集进行预处理,得到业务样本训练集;构建初始风控模型,所述初始风控模型内部包含多个级联的逻辑回归算法;根据所述业务样本训练集对所述初始风控模型进行多目标联合训练,得到最终风控模型。本发明专利技术在保障了模型可解释性的情况下,仍可以获得优秀的模型指标和业务效果,由于使用了多目标优化联合训练,大幅缓解了样本偏差问题,使得构建出来的风控模型在实际上线后,效果优良,表现稳定,泛化能力强。泛化能力强。泛化能力强。

【技术实现步骤摘要】
一种基于多目标优化的风控模型构建方法、装置和电子设备


[0001]本专利技术涉及计算机
,尤其涉及一种基于多目标优化的风控模型构建方法、装置和电子设备。

技术介绍

[0002]对于互联网线上消费贷的风控系统,目前业界的一般主流做法是使用人工策略和机器学习模型的相结合的方式构建而成。对于人工策略来说,由于策略规则一般相对简单,容易被黑色产业链和反欺诈团队通过多次试错和碰撞来攻破。对于机器学习风控模型来说,业界目前主流的采用基于逻辑回归算法(Logistic Regression)、基于决策树类算法、基于深度学习三类算法来构建模型。
[0003]基于逻辑回归算法构建出来的风控模型,其优点主要是模型可解释性强,归因分析方便。鉴于传统金融机构内审内控部门和国家监管机构对风控模型的可解释性有一定要求,所以逻辑回归算法依然是构建风控模型的首选。但此类模型的缺点也很明显,它的模型指标在所有机器学习算法中往往是最低的,业务效果一般。
[0004]基于决策树类的模型算法目前广泛应用于互联网线上消费贷款的风控模型之中。其中比较有代表性的算法有:随机森林,GBDT,xgBoost,lightGBM等。此类算法的模型指标要比传统的逻辑回归高很多,业务效果较好。但是决策树类算法的模型结构非常复杂,很难理出一个清晰又符合业务逻辑的模型解释。对模型未来在线上的表现,缺乏有效性和稳定性的背书。模型可解释性差。这一点往往成为国家监管机构问询的主要问题。
[0005]基于深度学习的风控模型往往使用在行为风险评估的B卡模型里,使用时序行为特征序列和基于循环神经网络的深度学习模型来构建。这种模型的指标和业务效果都比较优秀,但是模型的可解释性比决策树类算法更差。由于循环神经网络的高度复杂性,导致此类算法根本无法解释,也几乎不可能做业务逻辑的归因分析,一旦模型的预测概率分布和实际分布之间发生较大的偏差,模型的调优和迭代将变的非常困难。
[0006]目前无论是传统的人工风控策略流,还是三大类机器学习算法构建出来的风控模型,都或多或少存在一些问题。人工策略容易被攻破,逻辑回归算法虽然模型可解释性强,但是业务指标差,决策数类算法和深度学习算法等复杂模型虽然效果好,但是模型的可解释性却很差,甚至完全不可解释,这导致在面对内控内审和国家监管机构问讯方面非常麻烦。

技术实现思路

[0007]本专利技术提供了一种基于多目标优化的风控模型构建方法、装置和电子设备,用以在保障了模型可解释性的情况下,获得优秀的模型指标和业务效果,构建出来的风控模型在实际上线后,效果优良,表现稳定,泛化能力强。
[0008]本说明书实施例提供一种基于多目标优化的风控模型构建方法,包括:
[0009]获取业务样本数据集,对所述业务样本数据集中的每一个样本对应的特征组设定
多个相应的标签;
[0010]根据所述标签对所述业务样本数据集进行预处理,得到业务样本训练集;
[0011]构建初始风控模型,所述初始风控模型内部包含多个级联的逻辑回归算法;
[0012]根据所述业务样本训练集对所述初始风控模型进行多目标联合训练,得到最终风控模型。
[0013]优选的,所述获取业务样本数据集,包括:
[0014]基于原始的用户画像数据提取业务样本数据集。
[0015]优选的,所述对所述业务样本数据集中的每一个样本对应的特征组设定多个相应的标签,包括:
[0016]根据业务逻辑确定用户的区分标准;
[0017]根据所述用户的区分标准制定所述业务样本数据集中的标签设定规则;
[0018]基于标签设定规则对所述业务样本数据集中的每一个样本对应的特征组设定多个相应的标签。
[0019]优选的,所述根据所述标签对所述业务样本数据集进行预处理,包括:
[0020]根据所述业务样本数据集与所述标签的相关联对所述业务样本数据集进行筛选;
[0021]对筛选后的所述业务样本数据集进行特征清洗;
[0022]对清洗后的所述业务样本数据集进行特征加工、特征编码。
[0023]优选的,所述对清洗后的所述业务样本数据集进行特征加工、特征编码,包括:
[0024]对所述业务样本数据集进行缺失值填充;
[0025]对所述业务样本数据集进行特征衍生和特征组合;
[0026]对所述业务样本数据集中离散特征进行转化;
[0027]对所述业务样本数据集进行离散化处理。
[0028]优选的,所述根据所述业务样本训练集对所述初始风控模型进行多目标联合训练,包括:
[0029]通过内嵌向量映射层将所述业务样本训练集中的特征字段集合转化为业务向量;
[0030]通过多个级联的逻辑回归算法对所述业务向量进行概率预估,得到多个概率预估结果;
[0031]将多个概率预估结果输入至优化目标函数进行多目标联合训练,迭代更新所述初始风控模型的参数,得到训练后的风控模型。
[0032]优选的,所述得到最终风控模型,包括:
[0033]根据所述标签对所述业务样本数据集进行预处理,得到业务样本验证集;
[0034]通过所述业务样本验证集对所述训练后的风控模型进行验证,验证通过的风控模型为最终的风控模型。
[0035]本说明书实施例还提供一种基于多目标优化的风控模型构建装置,包括:
[0036]数据获取模块,获取业务样本数据集,对所述业务样本数据集中的每一个样本对应的特征组设定多个相应的标签;
[0037]数据处理模块,根据所述标签对所述业务样本数据集进行预处理,得到业务样本训练集;
[0038]模型构建模块,构建初始风控模型,所述初始风控模型内部包含多个级联的逻辑
回归算法;
[0039]模型训练模块,根据所述业务样本训练集对所述初始风控模型进行多目标联合训练,得到最终风控模型。
[0040]一种电子设备,其中,该电子设备包括:
[0041]处理器以及存储计算机可执行程序的存储器,所述可执行程序在被执行时使所述处理器执行上述任一项所述的方法。
[0042]一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项所述的方法。
[0043]本专利技术采用的方法在保障了模型可解释性的情况下,模型指标依然可以和“复杂的决策树类算法/深度学习算法”相媲美。在满足金融机构内审内控和监管机构对风控模型“可解释”的规定下,本专利技术的风控模型仍旧可以获得优秀的模型指标和业务效果。本专利技术的风控模型由于使用了多目标优化联合训练,大幅缓解了样本偏差问题,使得构建出来的风控模型在实际上线后,效果优良,表现稳定,泛化能力强。
附图说明
[0044]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0045]图1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多目标优化的风控模型构建方法,其特征在于,包括:获取业务样本数据集,对所述业务样本数据集中的每一个样本对应的特征组设定多个相应的标签;根据所述标签对所述业务样本数据集进行预处理,得到业务样本训练集;构建初始风控模型,所述初始风控模型内部包含多个级联的逻辑回归算法;根据所述业务样本训练集对所述初始风控模型进行多目标联合训练,得到最终风控模型。2.如权利要求1所述的一种基于多目标优化的风控模型构建方法,其特征在于,所述获取业务样本数据集,包括:基于原始的用户画像数据提取业务样本数据集。3.如权利要求1所述的一种基于多目标优化的风控模型构建方法,其特征在于,所述对所述业务样本数据集中的每一个样本对应的特征组设定多个相应的标签,包括:根据业务逻辑确定用户的区分标准;根据所述用户的区分标准制定所述业务样本数据集中的标签设定规则;基于标签设定规则对所述业务样本数据集中的每一个样本对应的特征组设定多个相应的标签。4.如权利要求1所述的一种基于多目标优化的风控模型构建方法,其特征在于,所述根据所述标签对所述业务样本数据集进行预处理,包括:根据所述业务样本数据集与所述标签的相关联对所述业务样本数据集进行筛选;对筛选后的所述业务样本数据集进行特征清洗;对清洗后的所述业务样本数据集进行特征加工、特征编码。5.如权利要求4所述的一种基于多目标优化的风控模型构建方法,其特征在于,所述对清洗后的所述业务样本数据集进行特征加工、特征编码,包括:对所述业务样本数据集进行缺失值填充;对所述业务样本数据集进行特征衍生和特征组合;对所述业务样本数据集中离散特征进行转化;对所述业务样本数据集进行离散化处理。6.如权利要求1所述的一种基于多目...

【专利技术属性】
技术研发人员:傅迪勇杨海天李朦
申请(专利权)人:上海华瑞银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1