一种风控模型的创建方法及装置制造方法及图纸

技术编号：35457619 阅读：19 留言：0更新日期：2022-11-03 12:18

本发明专利技术公开了一种风控模型的创建方法及装置，涉及信贷风控技术领域。本发明专利技术主要的技术方案为：获取目标样本集中各个目标样本的样本数据，所述样本数据中包括类别型特征数据和数值型特征数据；将所述类别型特征数据和所述数值型特征数据处理为第一多维特征数据集，所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维数值型特征数据构成；将所述类别型特征数据和所述数值型特征数据处理为第二多维特征数据集；利用所述第一多维特征数据集和所述第二多维特征数据集训练第三模型，所述第三模型为用于预测所述目标样本的评分结果的逻辑回归风控模型。本发明专利技术用于风控模型的创建。型的创建。型的创建。

全部详细技术资料下载

【技术实现步骤摘要】
一种风控模型的创建方法及装置

[0001]本专利技术涉及信贷风控
，尤其涉及一种风控模型的创建方法及装置。

技术介绍

[0002]风控技术在信贷风控领域中扮演着关键的角色。目前业界的一般做法是构建机器学习模型对个人用户或企业用户进行风险评估。而对于机器学习风控模型来说，业界目前主流的采用基于逻辑回归算法(Logistic Regression)、基于决策树类算法、基于深度学习三类算法来构建模型。
[0003]由于个人用户或企业用户的关联数据中均含有类别型特征数据和数值型特征数据，因此，现有技术中一般将采用独热(one
‑
hot)编码算法、映射编码算法(woe编码、bad rate编码等)对类别型特征数据编码进行处理，使类别型特征数据编码转换为数值型特征数据，再配合原有的数值型特征数据作为训练样本构建风控模型。然而，若使用独热编码算法则会将数值型特征数据转换为高维稀疏特征数据，其不适用于模型效果更好的集成树模型和深度神经网络模型，容易导致过拟合的情况发生，因此，只能使用简单的逻辑回归风控模型，导致模型训练效果欠佳，而若使用映射编码算法则会损失部分特征信息，仍然会导致模型训练效果欠佳，以致于影响模型后续的评估准确度。

技术实现思路

[0004]鉴于上述问题，本专利技术提供一种风控模型的创建方法及装置，主要目的是为了解决存在类别型特征数据时导致模型训练效果欠佳的问题，以保证模型后续的评估准确度。
[0005]为了解决上述技术问题，本专利技术提出以下方案：
[0...

【技术保护点】

【技术特征摘要】
1.一种风控模型的创建方法，其特征在于，包括：获取目标样本集中各个目标样本的样本数据，所述样本数据中包括类别型特征数据和数值型特征数据；将所述类别型特征数据和所述数值型特征数据处理为第一多维特征数据集，所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成；将所述类别型特征数据和所述数值型特征数据处理为第二多维特征数据集，所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成；利用所述第一多维特征数据集和所述第二多维特征数据集训练第三模型，所述第三模型为用于确定所述目标样本的评分结果的逻辑回归风控模型。2.根据权利要求1所述的方法，其特征在于，将所述类别型特征数据和所述数值型特征数据处理为第一多维特征数据集，所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成，包括：分别将所述类别型特征数据进行独热编码，以获得多个高维稀疏特征数据；依次将隶属于同一所述目标样本的所述高维稀疏特征数据和所述数值型特征数据进行拼接处理，以构成第一拼接数据集；利用所述第一拼接数据集训练第一模型，并获得第一输出结果集，所述第一模型为用于构建所述第一拼接数据的特征关联关系的因子分解机模型；将所述第一输出结果集作为所述第一多维特征数据集。3.根据权利要求1所述的方法，其特征在于，将所述类别型特征数据和所述数值型特征数据处理为第二多维特征数据集，所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成，包括：分别将所述类别型特征数据进行映射编码，以获得多个低维稠密特征数据；依次将隶属于同一所述目标样本的所述低维稠密特征数据和所述数值型特征数据进行拼接处理，以构成第二拼接数据集；利用所述第二拼接数据集训练第二模型，并获得第二输出结果集，所述第二模型为用于将第二拼接数据映射为多维数值型特征数据的深度神经网络模型；将所述第二输出结果集作为第二多维特征数据集。4.根据权利要求1所述的方法，其特征在于，在获取目标样本集中各个目标样本的样本数据之前，所述方法还包括：抽取预设数量的历史样本，以构成历史样本集；确定所述历史样本集中的所述历史样本的正负样本比例；判断所述正负样本比例是否处于预设阈值范围内；若是，则确定所述历史样本集为所述目标样本集。5.根据权利要求4所述的方法，其特征在于，确定所述历史样本集中的所述历史样本的正负样本比例，包括：获取所述历史样本集中各个所述历史样本的关联信息，所述关联信息至少包括基本属性、行为表现、风险指标以及征信信...

【专利技术属性】
技术研发人员：武一凡，冯鑫，
申请(专利权)人：百融至信北京征信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人