一种风控模型的创建方法及装置制造方法及图纸

技术编号:35457619 阅读:19 留言:0更新日期:2022-11-03 12:18
本发明专利技术公开了一种风控模型的创建方法及装置,涉及信贷风控技术领域。本发明专利技术主要的技术方案为:获取目标样本集中各个目标样本的样本数据,所述样本数据中包括类别型特征数据和数值型特征数据;将所述类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维数值型特征数据构成;将所述类别型特征数据和所述数值型特征数据处理为第二多维特征数据集;利用所述第一多维特征数据集和所述第二多维特征数据集训练第三模型,所述第三模型为用于预测所述目标样本的评分结果的逻辑回归风控模型。本发明专利技术用于风控模型的创建。型的创建。型的创建。

【技术实现步骤摘要】
一种风控模型的创建方法及装置


[0001]本专利技术涉及信贷风控
,尤其涉及一种风控模型的创建方法及装置。

技术介绍

[0002]风控技术在信贷风控领域中扮演着关键的角色。目前业界的一般做法是构建机器学习模型对个人用户或企业用户进行风险评估。而对于机器学习风控模型来说,业界目前主流的采用基于逻辑回归算法(Logistic Regression)、基于决策树类算法、基于深度学习三类算法来构建模型。
[0003]由于个人用户或企业用户的关联数据中均含有类别型特征数据和数值型特征数据,因此,现有技术中一般将采用独热(one

hot)编码算法、映射编码算法(woe编码、bad rate编码等)对类别型特征数据编码进行处理,使类别型特征数据编码转换为数值型特征数据,再配合原有的数值型特征数据作为训练样本构建风控模型。然而,若使用独热编码算法则会将数值型特征数据转换为高维稀疏特征数据,其不适用于模型效果更好的集成树模型和深度神经网络模型,容易导致过拟合的情况发生,因此,只能使用简单的逻辑回归风控模型,导致模型训练效果欠佳,而若使用映射编码算法则会损失部分特征信息,仍然会导致模型训练效果欠佳,以致于影响模型后续的评估准确度。

技术实现思路

[0004]鉴于上述问题,本专利技术提供一种风控模型的创建方法及装置,主要目的是为了解决存在类别型特征数据时导致模型训练效果欠佳的问题,以保证模型后续的评估准确度。
[0005]为了解决上述技术问题,本专利技术提出以下方案:
[0006]第一方面,本专利技术提供了一种风控模型的创建方法,所述方法包括:
[0007]获取目标样本集中各个目标样本的样本数据,所述样本数据中包括类别型特征数据和数值型特征数据;
[0008]将所述类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成;
[0009]将所述类别型特征数据和所述数值型特征数据处理为第二多维特征数据集,所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成;
[0010]利用所述第一多维特征数据集和所述第二多维特征数据集训练第三模型,所述第三模型为用于确定所述目标样本的评分结果的逻辑回归风控模型。
[0011]第二方面,本专利技术提供了一种风控模型的创建装置,所述装置包括:
[0012]获取单元,用于获取目标样本集中各个目标样本的样本数据,所述样本数据中包括类别型特征数据和数值型特征数据;
[0013]第一处理单元,用于将所述获取单元获得的类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成;
[0014]第二处理单元,用于将所述获取单元获得的类别型特征数据和所述数值型特征数据处理为第二多维特征数据集,所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成;
[0015]训练单元,用于利用所述第一处理单元获得的第一多维特征数据集和所述第二处理单元获得的第二多维特征数据集训练第三模型,所述第三模型为用于预测所述目标样本的评分结果的逻辑回归风控模型。
[0016]为了实现上述目的,根据本专利技术的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第一方面的风控模型的创建方法。
[0017]为了实现上述目的,根据本专利技术的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述第一方面的风控模型的创建方法。
[0018]借由上述技术方案,本专利技术提供的一种风控模型的创建方法及装置,是在需要对风控模型进行创建时,先获取目标样本集中各个目标样本的样本数据,样本数据中包括类别型特征数据和数值型特征数据,并将类别型特征数据和数值型特征数据处理为第一多维特征数据集,且同时将第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成,将类别型特征数据和数值型特征数据处理为第二多维特征数据集,第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成,最后利用第一多维特征数据集和第二多维特征数据集训练第三模型,第三模型为用于确定目标样本的评分结果的逻辑回归风控模型。通过本专利技术提供的风控模型的创建方案,能够将样本数据中的类别型特征数据和数值型特征数据经过不同的处理方式得到两种不同的多维数值型特征数据以作为最后风控模型的训练样本,且考虑了特征数据之间的关联关系,避免了损失特征信息,提升了最终风控模型的训练效果,进而保证了模型后续的评估准确度。
[0019]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0020]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0021]图1示出了本专利技术实施例提供的一种风控模型的创建方法流程图;
[0022]图2示出了本专利技术实施例提供的另一种风控模型的创建方法流程图;
[0023]图3示出了本专利技术实施例提供的一种风控模型的创建装置的组成框图;
[0024]图4示出了本专利技术实施例提供的另一种风控模型的创建装置的组成框图。
具体实施方式
[0025]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围
完整的传达给本领域的技术人员。
[0026]风控技术在信贷风控领域中扮演着关键的角色。目前业界的一般做法是构建机器学习模型对个人用户或企业用户进行风险评估。而对于机器学习风控模型来说,业界目前主流的采用基于逻辑回归算法(Logistic Regression)、基于决策树类算法、基于深度学习三类算法来构建模型。由于个人用户或企业用户的关联数据中均含有类别型特征数据和数值型特征数据,因此,现有技术中一般将采用独热(one

hot)编码算法、映射编码算法(woe编码、bad rate编码等)对类别型特征数据编码进行处理,使类别型特征数据编码转换为数值型特征数据,再配合原有的数值型特征数据作为训练样本构建风控模型。然而,若使用独热编码算法则会将数值型特征数据转换为高维稀疏特征数据,其不适用于模型效果更好的集成树模型和深度神经网络模型,容易导致过拟合的情况发生,因此,只能使用简单的逻辑回归风控模型,导致模型训练效果欠佳,而若使用映射编码算法则会损失部分特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种风控模型的创建方法,其特征在于,包括:获取目标样本集中各个目标样本的样本数据,所述样本数据中包括类别型特征数据和数值型特征数据;将所述类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成;将所述类别型特征数据和所述数值型特征数据处理为第二多维特征数据集,所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成;利用所述第一多维特征数据集和所述第二多维特征数据集训练第三模型,所述第三模型为用于确定所述目标样本的评分结果的逻辑回归风控模型。2.根据权利要求1所述的方法,其特征在于,将所述类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成,包括:分别将所述类别型特征数据进行独热编码,以获得多个高维稀疏特征数据;依次将隶属于同一所述目标样本的所述高维稀疏特征数据和所述数值型特征数据进行拼接处理,以构成第一拼接数据集;利用所述第一拼接数据集训练第一模型,并获得第一输出结果集,所述第一模型为用于构建所述第一拼接数据的特征关联关系的因子分解机模型;将所述第一输出结果集作为所述第一多维特征数据集。3.根据权利要求1所述的方法,其特征在于,将所述类别型特征数据和所述数值型特征数据处理为第二多维特征数据集,所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成,包括:分别将所述类别型特征数据进行映射编码,以获得多个低维稠密特征数据;依次将隶属于同一所述目标样本的所述低维稠密特征数据和所述数值型特征数据进行拼接处理,以构成第二拼接数据集;利用所述第二拼接数据集训练第二模型,并获得第二输出结果集,所述第二模型为用于将第二拼接数据映射为多维数值型特征数据的深度神经网络模型;将所述第二输出结果集作为第二多维特征数据集。4.根据权利要求1所述的方法,其特征在于,在获取目标样本集中各个目标样本的样本数据之前,所述方法还包括:抽取预设数量的历史样本,以构成历史样本集;确定所述历史样本集中的所述历史样本的正负样本比例;判断所述正负样本比例是否处于预设阈值范围内;若是,则确定所述历史样本集为所述目标样本集。5.根据权利要求4所述的方法,其特征在于,确定所述历史样本集中的所述历史样本的正负样本比例,包括:获取所述历史样本集中各个所述历史样本的关联信息,所述关联信息至少包括基本属性、行为表现、风险指标以及征信信...

【专利技术属性】
技术研发人员:武一凡冯鑫
申请(专利权)人:百融至信北京征信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1