一种评分卡创建方法、装置和电子设备制造方法及图纸

技术编号:27062559 阅读:24 留言:0更新日期:2021-01-15 14:43
本发明专利技术实施例提供了一种评分卡创建方法、装置和电子设备,上述方法包括:获取多个样本用户的多个样本特征的数据;针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间;将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。本发明专利技术实施例提供的方法,简化了评分卡的创建过程。

【技术实现步骤摘要】
一种评分卡创建方法、装置和电子设备
本专利技术涉及数据分析
,特别是涉及一种评分卡创建方法、装置和电子设备。
技术介绍
目前,大数据分析技术被应用到各个领域中。例如:在金融领域,可以通过对用户的数据进行分析,来实现风险控制。具体的,金融机构可以通过对用户的属性数据和行为数据等进行大数据分析,对用户进行信用风险评估。目前,主要是通过所创建的评分卡,利用用户的各种属性和行为数据,例如:年龄属性、性别属性或收入支出等属性数据,以及存取款或支付等行为数据,对用户进行信用评分。这样,金融机构可以根据用户的信用评分决定是否给予用户授信以及授信的额度和利率,从而降低金融交易中的风险。其中,用户的信用评分可以反映用户可能会发生逾期还款或者欺诈的概率,且信用评分越高,用户的信用风险越低。可见,创建评分卡是进行信用评分的重要环节。参见图1,图1为现有技术的一种评分卡的结构示例图。其中,评分卡100包括:收入变量、年龄变量、性别变量和婚姻状况变量,每个变量可以对应多个特征分箱,每个特征分箱为该变量的一个数据区间,如图1中收入变量对应3个特征分箱:[0,10000)、[10000,50000)和[50000,50000以上),即每个特征分箱均为收入变量的一个数据区间。并且,每个特征分箱对应一个woe(weightofevidence,证据权重)值和一个对应分值,其中,每个特征分箱对应的woe值表示:该特征分箱对应的响应高风险用户和非高风险用户的比值,和所有用户中高风险用户和非高风险用户的比值的差异。且woe值越小该特征分箱对应的用户的违约风险越小;每个特征分箱对应的对应分值表示:用户的某一变量的值在该特征分箱内时所对应的评分。针对用户,可以根据如图1所示的评分卡100,分析用户各个特征的对应分值,然后将各个特征的对应分值和基础分的和值,作为该用户的信用评分。因此,创建评分卡的过程就是对用户的数据进行大数据分析,计算出各种属性和各种行为各自对应的信用评分。例如,若用户a的性别为男性、年龄为20岁、收入为5000且是未婚状态,针对用户a,可以根据图1所示的评分卡100,确定出:性别为男性的对应分值为1.6,婚姻状况为未婚的对应分值为0.3,年龄为20岁对应特征分箱[20,40)且对应分值为22.7,收入为5000对应特征分箱[0,10000)且对应分值为-7.3。则可以将各个特征的对应分值和基础分的和值:1.6+0.3+22.7+(-7.3)+33.7=51,作为用户a的信用评分。目前,创建评分卡最常用的是基于逻辑回归的标准评分卡,其是利用用户数据,确定出变量分箱,然后构建逻辑回归模型,确定出评分卡。其中,变量分箱是针对每个变量,确定出该变量的多个数值区间,如图1的评分卡100所示,针对年龄需要确定出如[0,20]、[20,40)、[40,50)和[50,100]多个年龄区间。然而,现有的变量分箱过程需要工程师针对每个特征多次重复操作才能确定出较好的变量分箱,操作比较繁复。
技术实现思路
本专利技术实施例的目的在于提供一种评分卡创建方法、装置和电子设备,以简化评分卡创建过程。为了达到上述目的,本专利技术实施例提供了一种评分卡创建方法,包括:获取多个样本用户的多个样本特征的数据,每个样本用户的多个样本特征的数据包括:该样本用户的行为数据和属性数据;每个样本用户对应存在一个标签,该标签用于表征样本用户是否为高风险用户;针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;每个回归树包括两个叶子节点,分别表示:以该回归树对应的特征值所划分的样本特征的两个数值区间;按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间;将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。进一步的,所述针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树的步骤,包括:针对样本用户的每一个样本特征,基于梯度提升算法,以该样本特征的数据为特征值,选取该样本特征的一个特征值,确定出以该特征值为分界点的回归树;回归树的每个叶子节点分别对应一个预测分数,表示:该样本特征的数据位于该叶子节点表示的数值区间时所对应的分数;确定该回归树的增益函数;获得样本用户的各个样本特征的数据在各个回归树的预测分数之和,作为输出分数;基于样本用户的标签和所述输出分数,确定当前的待训练梯度提升树模型的损失函数;当前的待训练梯度提升树模型包括:当前所确定的多个回归树;判断所述损失函数是否收敛;若是,固定当前的待训练梯度提升树模型的参数,得到目标梯度提升树模型;若否,选取使得回归树的增益函数达到最大的特征值作为新的特征值,返回确定出以该特征值为分界点的回归树的步骤;提取目标梯度提升树模型的各个回归树的参数,并将表示同一样本特征数据的同一特征值的多个回归树进行合并,得到每个样本特征对应的一个或多个回归树。进一步的,所述将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡的步骤,包括:获得每个目标数值区间对应的分数,每个目标数值区间对应的分数为:数值区间与该目标数值区间存在交集的各个叶子节点对应的预测分数之和;将每个目标数值区间作为一个回归树分箱,并将目标数值区间对应的分数作为该回归树分箱的评分,创建包括各个回归树分箱以及各个回归树分箱所对应的评分的评分卡;其中,评分卡的评分包括各个回归树分箱对应的评分和预设的基础分。进一步的,针对每个目标数值区间,采用如下公式确定该目标数值区间对应的分数:Score=-B{f1+f2+…+fK}其中,Score表示该目标数值区间对应的分数,B为预设的常数参数,f1、f2、…、fK分别表示数值区间与该目标数值区间存在交集的K个叶子节点对应的预测分数之和。进一步的,所述将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡的步骤,包括:将每个目标数值区间作为一个特征分箱,采用逻辑回归模型确定每个特征分箱对应的评分,并根据各个特征分箱和各个特征分箱对应的评分创建评分卡。进一步的,所述获取多个样本用户的多个样本特征的数据,包括:获取样本用户的多个特征的数据;针对每个特征,检测该特征的类型;若该特征为数值型特征,将该特征作为待筛选特征;若该特征为类别型特征,按照预设的赋值规则对该特征进行赋值,将赋值后的该特征的数据作为待筛选特征;将多个待筛选特征输入待训练梯度提升模型,提取各个待筛选特征对应的重要度;每个特征对应存在一个标签,该标签用于表征该特征是否重要。针对每个待筛选特征,当该待筛选特征的重要度小于等于预设重要度阈值时,将该待筛选特征作为待删除特征本文档来自技高网
...

【技术保护点】
1.一种评分卡创建方法,其特征在于,包括:/n获取多个样本用户的多个样本特征的数据,每个样本用户的多个样本特征的数据包括:该样本用户的行为数据和属性数据;每个样本用户对应存在一个标签,该标签用于表征样本用户是否为高风险用户;/n针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;每个回归树包括两个叶子节点,分别表示:以该回归树对应的特征值所划分的样本特征的两个数值区间;/n按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间;/n将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。/n

【技术特征摘要】
1.一种评分卡创建方法,其特征在于,包括:
获取多个样本用户的多个样本特征的数据,每个样本用户的多个样本特征的数据包括:该样本用户的行为数据和属性数据;每个样本用户对应存在一个标签,该标签用于表征样本用户是否为高风险用户;
针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树;每个回归树包括两个叶子节点,分别表示:以该回归树对应的特征值所划分的样本特征的两个数值区间;
按照各个回归树对应的特征值从小到大的顺序,对同一样本特征所对应的回归树进行排序;并将排序后的第一个回归树的左侧叶子节点表示的数值区间、排序后的最后一个回归树的右侧叶子节点表示的数值区间以及不同回归树的相邻两个叶子节点表示的数值区间的交集均确定为目标数值区间;
将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡。


2.根据权利要求1所述的方法,其特征在于,所述针对每一种样本特征,基于该样本特征的各个特征值,训练获得该样本特征对应的一个或多个回归树的步骤,包括:
针对样本用户的每一个样本特征,以该样本特征的数据为特征值,针对该样本特征的每一个特征值,基于梯度提升算法确定出以该特征值为分界点的回归树;回归树的每个叶子节点分别对应一个预测分数,表示:该样本特征的数据位于该叶子节点表示的数值区间时所对应的分数;
分别确定以每一个特征值为分界点的各个回归树的增益函数;
从各个回归树中选择增益函数最大的回归树,作为当前所确定的回归树;
获得样本用户的各个样本特征的数据在当前所确定的回归树的预测分数之和,作为输出分数;
基于样本用户的标签和所述输出分数,确定当前的待训练梯度提升树模型的损失函数;当前的待训练梯度提升树模型包括:当前所确定的一个或多个回归树;
判断所述损失函数是否收敛;
若是,固定当前的待训练梯度提升树模型的参数,得到目标梯度提升树模型;
若否,针对样本用户的每一个样本特征的每一个特征值,基于梯度提升算法重新确定出以该特征值为分界点的回归树,并返回所述分别确定以每一个特征值为分界点的各个回归树的增益函数的步骤;
提取目标梯度提升树模型的各个回归树的参数,并将表示同一样本特征数据的同一特征值的多个回归树进行合并,得到每个样本特征对应的一个或多个回归树。


3.根据权利要求2所述的方法,其特征在于,所述将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡的步骤,包括:
获得每个目标数值区间对应的分数,每个目标数值区间对应的分数为:数值区间与该目标数值区间存在交集的各个叶子节点对应的预测分数之和;
将每个目标数值区间作为一个回归树分箱,并将目标数值区间对应的分数作为该回归树分箱的评分,创建包括各个回归树分箱以及各个回归树分箱所对应的评分的评分卡;其中,评分卡的评分包括各个回归树分箱对应的评分和预设的基础分。


4.根据权利要求3所述的方法,其特征在于,针对每个目标数值区间,采用如下公式确定该目标数值区间对应的分数:
Score=-B{f1+f2+…+fK}
其中,Score表示该目标数值区间对应的分数,B为预设的常数参数,f1、f2、…、fK分别表示数值区间与该目标数值区间存在交集的K个叶子节点对应的预测分数之和。


5.根据权利要求1所述的方法,其特征在于,所述将每个目标数值区间作为一个回归树分箱,创建包括各个回归树分箱的评分卡的步骤,包括:
将每个目标数值区间作为一个特征分箱,采用逻辑回归模型确定每个特...

【专利技术属性】
技术研发人员:张晓强
申请(专利权)人:中诚信征信有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1