一种评分卡创建方法、装置和电子设备制造方法及图纸

技术编号：27062559 阅读：24 留言：0更新日期：2021-01-15 14:43

本发明专利技术实施例提供了一种评分卡创建方法、装置和电子设备，上述方法包括：获取多个样本用户的多个样本特征的数据；针对每一种样本特征，基于该样本特征的各个特征值，训练获得该样本特征对应的一个或多个回归树；按照各个回归树对应的特征值从小到大的顺序，对同一样本特征所对应的回归树进行排序；并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间；将每个目标数值区间作为一个回归树分箱，创建包括各个回归树分箱的评分卡。本发明专利技术实施例提供的方法，简化了评分卡的创建过程。

全部详细技术资料下载

【技术实现步骤摘要】
一种评分卡创建方法、装置和电子设备
本专利技术涉及数据分析
，特别是涉及一种评分卡创建方法、装置和电子设备。
技术介绍
目前，大数据分析技术被应用到各个领域中。例如：在金融领域，可以通过对用户的数据进行分析，来实现风险控制。具体的，金融机构可以通过对用户的属性数据和行为数据等进行大数据分析，对用户进行信用风险评估。目前，主要是通过所创建的评分卡，利用用户的各种属性和行为数据，例如：年龄属性、性别属性或收入支出等属性数据，以及存取款或支付等行为数据，对用户进行信用评分。这样，金融机构可以根据用户的信用评分决定是否给予用户授信以及授信的额度和利率，从而降低金融交易中的风险。其中，用户的信用评分可以反映用户可能会发生逾期还款或者欺诈的概率，且信用评分越高，用户的信用风险越低。可见，创建评分卡是进行信用评分的重要环节。参见图1，图1为现有技术的一种评分卡的结构示例图。其中，评分卡100包括：收入变量、年龄变量、性别变量和婚姻状况变量，每个变量可以对应多个特征分箱，每个特征分箱为该变量的一个数据区间，如图1中收入变量对应3个特征分箱：[0，10000)、[10000，50000)和[50000，50000以上)，即每个特征分箱均为收入变量的一个数据区间。并且，每个特征分箱对应一个woe(weightofevidence，证据权重)值和一个对应分值，其中，每个特征分箱对应的woe值表示：该特征分箱对应的响应高风险用户和非高风险用户的比值，和所有用户中高风险用户和非高风险用户的比值的差异。且woe值越小该特征...

【技术保护点】
1.一种评分卡创建方法，其特征在于，包括：/n获取多个样本用户的多个样本特征的数据，每个样本用户的多个样本特征的数据包括：该样本用户的行为数据和属性数据；每个样本用户对应存在一个标签，该标签用于表征样本用户是否为高风险用户；/n针对每一种样本特征，基于该样本特征的各个特征值，训练获得该样本特征对应的一个或多个回归树；每个回归树包括两个叶子节点，分别表示：以该回归树对应的特征值所划分的样本特征的两个数值区间；/n按照各个回归树对应的特征值从小到大的顺序，对同一样本特征所对应的回归树进行排序；并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间；/n将每个目标数值区间作为一个回归树分箱，创建包括各个回归树分箱的评分卡。/n

【技术特征摘要】
1.一种评分卡创建方法，其特征在于，包括：
获取多个样本用户的多个样本特征的数据，每个样本用户的多个样本特征的数据包括：该样本用户的行为数据和属性数据；每个样本用户对应存在一个标签，该标签用于表征样本用户是否为高风险用户；
针对每一种样本特征，基于该样本特征的各个特征值，训练获得该样本特征对应的一个或多个回归树；每个回归树包括两个叶子节点，分别表示：以该回归树对应的特征值所划分的样本特征的两个数值区间；
按照各个回归树对应的特征值从小到大的顺序，对同一样本特征所对应的回归树进行排序；并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间；
将每个目标数值区间作为一个回归树分箱，创建包括各个回归树分箱的评分卡。

2.根据权利要求1所述的方法，其特征在于，所述针对每一种样本特征，基于该样本特征的各个特征值，训练获得该样本特征对应的一个或多个回归树的步骤，包括：
针对样本用户的每一个样本特征，以该样本特征的数据为特征值，针对该样本特征的每一个特征值，基于梯度提升算法确定出以该特征值为分界点的回归树；回归树的每个叶子节点分别对应一个预测分数，表示：该样本特征的数据位于该叶子节点表示的数值区间时所对应的分数；
分别确定以每一个特征值为分界点的各个回归树的增益函数；
从各个回归树中选择增益函数最大的回归树，作为当前所确定的回归树；
获得样本用户的各个样本特征的数据在当前所确定的回归树的预测分数之和，作为输出分数；
基于样本用户的标签和所述输出分数，确定当前的待训练梯度提升树模型的损失函数；当前的待训练梯度提升树模型包括：当前所确定的一个或多个回归树；
判断所述损失函数是否收敛；
若是，固定当前的待训练梯度提升树模型的参数，得到目标梯度提升树模型；
若否，针对样本用户的每一个样本特征的每一个特征值，基于梯度提升算法重新确定出以该特征值为分界点的回归树，并返回所述分别确定以每一个特征值为分界点的各个回归树的增益函数的步骤；
提取目标梯度提升树模型的各个回归树的参数，并将表示同一样本特征数据的同一特征值的多个回归树进行合并，得到每个样本特征对应的一个或多个回归树。

3.根据权利要求2所述的方法，其特征在于，所述将每个目标数值区间作为一个回归树分箱，创建包括各个回归树分箱的评分卡的步骤，包括：
获得每个目标数值区间对应的分数，每个目标数值区间对应的分数为：数值区间与该目标数值区间存在交集的各个叶子节点对应的预测分数之和；
将每个目标数值区间作为一个回归树分箱，并将目标数值区间对应的分数作为该回归树分箱的评分，创建包括各个回归树分箱以及各个回归树分箱所对应的评分的评分卡；其中，评分卡的评分包括各个回归树分箱对应的评分和预设的基础分。

4.根据权利要求3所述的方法，其特征在于，针对每个目标数值区间，采用如下公式确定该目标数值区间对应的分数：
Score＝-B{f1+f2+…+fK}
其中，Score表示该目标数值区间对应的分数，B为预设的常数参数，f1、f2、…、fK分别表示数值区间与该目标数值区间存在交集的K个叶子节点对应的预测分数之和。

5.根据权利要求1所述的方法，其特征在于，所述将每个目标数值区间作为一个回归树分箱，创建包括各个回归树分箱的评分卡的步骤，包括：
将每个目标数值区间作为一个特征分箱，采用逻辑回归模型确定每个特...

【专利技术属性】
技术研发人员：张晓强，
申请(专利权)人：中诚信征信有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人