System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及金融贷款,具体而言,尤其涉及一种电商场景准入反欺诈特征变量筛选方法。
技术介绍
1、随着互联网金融的不断发展,为解决网络线上用户快速获取金融贷款的极致用户体验,需要平衡用户体验与欺诈风险管控,既不能了降级欺诈率而加重用户的贷款体验流程,也不能为了用户体验,而采用快速的核身手段来防范。
2、金融贷款通常需要对用户进行核查,以进行欺诈风险管控。现有贷款业务核查模式通常是采用单一的核身手段对用户贷款进行核查,然而每一种核身手段都不是万能的,都存在一定的局限性。因此,需要针对电商场景设计不同的风险检查环节和风控策略,构建基于电商场景和准入反欺诈规则下的欺诈风险判别,提高电商场景中不同业务环节欺诈风险判定的能力,也可以通过准入反欺诈模型、反欺诈规则库判定客户的信用度。
技术实现思路
1、有鉴于此,本专利技术的目的在于提出一种电商场景准入反欺诈特征变量筛选方法,主要通过欺诈标签定义、样本数据融合、风险特征挖掘、模型搭建、模型评估五个步骤,从自身已有的历史存量数据中挖掘出有用的准入反欺诈规则,利用模型结果有效地提高欺诈用户的检出率,降低非欺诈用户的误报率,从而提高整个反欺诈风控的效率。
2、本专利技术采用的技术手段如下:
3、一种电商场景准入反欺诈特征变量筛选方法,包括如下步骤:
4、s1、在贷款机构自身已有的历史存量数据结果信息中总结筛选出可以明确用户欺诈行为的欺诈标签变量;
5、s2、整合筛选出可以纳入模型的样本数据,
6、s3、对s2处理后的样本数据进行数据转换和变形,从具有s1的欺诈标签变量的这类人群中提取和创造出对预测欺诈有帮助的特征变量;
7、s4、基于s3已筛选的各种特征变量,通过构建树型决策结构模型来进一步进行欺诈重要特征提取,使用测试集对模型进行优劣评估,从而得到最终可以对预测欺诈有帮助的特征变量。
8、进一步地,s1具体包括如下步骤:
9、使用与还款数据相关的方法来定义欺诈,所述欺诈标签包括逾期超过180天和首期未还款,即将首期未还款且逾期超过180天的客户定义为欺诈坏客户。
10、进一步地,s2具体包括如下步骤:
11、s21、数据融合,针对每一笔贷款申请,将其相关联的个人信息类数据和电商类交易数据及产品信息类数据融合成原始数据表;
12、s22、数据清洗,将原始数据表中明显错误和重复的数据去除掉;
13、s23、数据质量分析,对s22处理后的数据表中数据的质量做详细的统计分析,统计分析包括缺失异常分析、数值异常分析;所述数值异常分析包括相应字段填写的值明显错误,明显错误包括店铺经营时长为负数、长度异常分析和关联异常分析,最终得到处理后的样本数据。
14、进一步地,s3具体包括如下步骤:
15、s31、以处理后的样本数据作为原始特征变量池,采用特征相关性、特征预测性来完成特征变量池中较优特征字段的筛选,针对特征相关性分析,采用person相关系数来实现,采用相关性处理放在iv值筛选之前的方法以达到删除相关系数强相关的一组变量的目的,针对相关性高的两个变量,删除和其它变量整体相关更高的那个,以减少需要计算的iv值的变量数,优化特征处理的过程;
16、s32、采用特征预测性iv指标分析各个特征对预测欺诈有帮助的特征变量的贡献能力最大的特征变量。
17、进一步地,s31中,去除相关性强的变量的方法如下:
18、在iv值筛选之前进行相关性处理,针对相关性高的两个变量,删除和其它变量整体相关更高的变量,以减少需要计算的iv值的变量数并优化特征处理的过程,具体包括如下步骤:
19、s311、从所有变量的相关矩阵中挑选出相关系数大于0.7的一对变量a和b;
20、s312、分别对a和b计算其与其它变量相关系数的平均值α、β;
21、s313、如果α大于β,删除变量a,否则删除b;
22、s314、重复s311~s313直到所有变量两两之间的相关系数低于0.7。
23、进一步地,s32具体包括如下步骤:
24、s321、将s31处理后的每个变量进行等频分箱处理,
25、s322、计算s321每个变量分箱后的woe值,按照woe的单调性进行调整,保持单调性使连续数据转化为离散时数据之间具备一定的联系和趋势而非孤立的几个数据;计算指标变量各分箱的相关的woe值,公式如下:
26、
27、其中:bad_overduei为样本中第i个分箱中坏样本个数,bad_overduet为样本中坏样本总个数,good_normali为样本中第i个分箱中好样本个数,good_normalt为样本中好样本总个数;
28、s323、根据s322的woe值计算变量的iv值,公式如下:
29、
30、
31、其中:bad_overduei:样本中第i个分箱中坏样本个数,bad_overduet:样本中坏样本总个数,good_normali:样本中第i个分箱中好样本个数,good_normalt:样本中好样本总个数;
32、s324、因iv值大的变量有效信息多,对模型的贡献度高,因此,可根据s323计算出的每个变量的iv值的大小进行最终特征变量筛选,对于iv值低于0.02的特征变量,预测性能弱,将其剔除,留下的便是最终纳入模型的特征变量。
33、进一步地,s4具体包括如下步骤:
34、s41、采用过采样的方式对好样本和坏样本的数量进行均衡化处理,使好坏样本的数量一样;
35、s42、根据s41均衡化处理后的数据对数据进行数据拆分,拆分成训练集和测试集,采用随机森林分类算法对训练集中的训练数据进行模型拟合,在原始数据集中随机抽样,构成多个不同的样本数据集,然后根据这些数据集搭建多个不同的决策树模型,最后根据这些决策树模型的平均值或者投票结果来获取最优参数和最终决策树模型;
36、s43、使用最终决策树模型对样本测试集进行预测,得到预测结果。
37、进一步地,s4中,使用测试集对模型进行优劣评估包括:使用测试集评估模型,通过评估指标来评估模型的优劣并给出该模型的评估值,评估指标包括分类准确度、召回率、精确度、roc;
38、采用评估指标来评估模型,所述评估指标包括分类准确度、召回率、精确度和roc,具体包括如下步骤:
39、将s43的预测结果与测试集的真实因变量标签进行比对运算,对预测结果进行评估,输出评估值;
40、设置一个阈值来确定模型最终判定的是好还是坏,采用混淆矩阵记录分类器的预测结果;
41、根据混淆矩阵对评估指标进行评估:
42、分类准确度,正负样本分别被正确分类的概率,正确率=(真阳本文档来自技高网...
【技术保护点】
1.一种电商场景准入反欺诈特征变量筛选方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的电商场景准入反欺诈特征变量筛选方法,其特征在于,S1具体包括如下步骤:
3.根据权利要求1所述的电商场景准入反欺诈特征变量筛选方法,其特征在于,S2具体包括如下步骤:
4.根据权利要求1所述的电商场景准入反欺诈特征变量筛选方法,其特征在于,S3具体包括如下步骤:
5.根据权利要求4所述的电商场景准入反欺诈特征变量筛选方法,其特征在于,S31中,去除相关性强的变量的方法如下:
6.根据权利要求4所述的电商场景准入反欺诈特征变量筛选方法,其特征在于,S32具体包括如下步骤:
7.根据权利要求1所述的电商场景准入反欺诈特征变量筛选方法,其特征在于,S4具体包括如下步骤:
8.根据权利要求4所述的电商场景准入反欺诈特征变量筛选方法,其特征在于:S4中,使用测试集对模型进行优劣评估包括:使用测试集评估模型,通过评估指标来评估模型的优劣并给出该模型的评估值,评估指标包括分类准确度、召回率、精确度、ROC;
< ...【技术特征摘要】
1.一种电商场景准入反欺诈特征变量筛选方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的电商场景准入反欺诈特征变量筛选方法,其特征在于,s1具体包括如下步骤:
3.根据权利要求1所述的电商场景准入反欺诈特征变量筛选方法,其特征在于,s2具体包括如下步骤:
4.根据权利要求1所述的电商场景准入反欺诈特征变量筛选方法,其特征在于,s3具体包括如下步骤:
5.根据权利要求4所述的电商场景准入反欺诈特征变量筛选方法,其特征在于,s31中,去除相关性强的变量的方法如下:
6.根据权利要求4所述的电商场景准入反欺诈特征变量筛选方法,其特征在于,s32具体包括如下步骤:
7.根据权利要求1所述的电商场景准入反欺诈特征变量筛...
【专利技术属性】
技术研发人员:陈晓可,朱丽莉,刘彩霞,
申请(专利权)人:辽宁卓信普惠征信服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。