一种基于医疗美容场景的客户违约概率预测方法技术

技术编号:20364623 阅读:26 留言:0更新日期:2019-02-16 17:18
本发明专利技术公开了一种基于医疗美容场景的客户违约概率预测方法。本发明专利技术包括如下步骤:步骤1、确认影响客户违约因素;步骤2、特征的采集、转化、量化和存储;步骤3、构建模型进行迭代及运算;步骤1所述的确认影响客户违约因素,其中影响因素包括客户基本信息与第三方信息两大类;步骤3所述的构建模型进行迭代及运算包括建立特征工程、建立模型和采用XGBoost算法预测客户违约概率。本发明专利技术结合目前最新的机器学习算法,对客户违约概率进行评估,并取得了良好的效果。

【技术实现步骤摘要】
一种基于医疗美容场景的客户违约概率预测方法
本专利技术是基于女性群体在医疗美容分期信贷申请过程填写的个人基础信息、设备信息,结合运营商、第三方平台征信、电商等数据,运用相关性特征挖掘技术,通过XGBOOST算法提供一种基于医疗美容场景的客户违约概率预测方法。
技术介绍
有医美服务和消费分期需求的丽人群体、力求降低用户使用成本及获客成本的医疗美容机构和依托医美机构推荐来拓展其分期业务的消费金融平台,三者共同构成了医美消费金融产业生态圈。在医疗美容市场远未达到饱和、正处于黄金发展期的同时,医美分期面临的头号难题仍然是反欺诈。而仅基于借款申请用户提交的信息预测违约概率是远远不够的,我们采用更主动的方式,基于多维度数据包括运营商数据、第三方数据、电商报告等梳理用户人群画像,判断每一笔进件为欺诈或逾期风险的可能性。依托高可用分布式大数据集群平台,进行实时的数据采集、处理与计算,快速获取丽人用户各类历史信息,结合机器学习中强大的集成学习算法,精准预判每个丽人用户的信用状况,解决了该群体信用评估难的问题。大数据规模、高维度、实时性与精准评分,成为我们的最大优势。
技术实现思路
本专利技术的目的是为解决丽人用户信用评估准确性的问题,提供一种基于医疗美容场景的客户违约概率预测方法。本专利技术通过采集用户基础信息、运营商信息以及第三方数据信息(包括风险评分、多头借贷、终端使用情况等等),对可能影响其违约的特征进行提取、转换、定性和量化计算,并结合XGBOOST算法,分步骤构建违约模型并进行实例验证。本专利技术解决其技术问题所采用的技术方案包括如下步骤:步骤1、用户违约因素的确认。步骤2、构建模型进行迭代及运算。步骤3、效果验证。步骤1所述用户违约因素的确认,具体实现如下:将影响用户逾期的特征分为两大类:基础信息和第三方数据信息;1.1基础信息基础信息包括申请人基本数据、申请设备数据以及衍生数据;申请人基本数据是指用户在申请贷款过程中填写的个人信息,包括年龄、申请项目金额、手术项目类型、医疗机构信息、借款金额、借款期限、申请地、户籍地;申请设备数据包括申请设备名称、系统、版本、设备id;衍生数据包括申请人户籍地GDP排名、申请地GPD排名、申请地与户籍地是否一致。1.2第三方数据信息①用户在其他借贷平台的申请借贷信息,包括个体在其他多个平台提出的借贷申请或是已借款的相关信息;②用户常用APP活跃度信息;③用户各类信用评分信息;基于第三方数据公司获取用户群体在其它多个平台的借贷申请或已借款的相关信息,包括个人信息核查、不良信息扫描、多平台借贷申请、信贷逾期信息和司法不良记录。基于用户申请时使用的终端设备,借助第三方平台获取终端设备相关信息。基于用户申请注册用的手机号码,借助第三方平台获取手机号运营商信息。基于用户申请注册用的姓名、手机和身份证,借助第三方平台获取用户的信用评分信息。步骤2所述的构建模型进行迭代及运算,具体实现如下:2-1.特征工程:①清洗异常数据、异常样本:若采集的数据样本60%以上的特征数据为空,则剔除该样本;获取新的数据集Ⅰ;所述的数据样本是指步骤中采集到的基础信息或通过第三方采集到的数据信息;②针对数据集Ⅰ中的缺失值,采用随机森林插补法填充,获取数据集Ⅱ;③特征筛选:首先将数据集Ⅱ中的所有数据进行IV值计算,将其中IV值小于设定值的数据进行删除,获得数据集Ⅲ;④基于随机森林学习模型的特征排序(Modelbasedranking),对数据集Ⅲ进行排序,获取数据集Ⅳ,对数据集Ⅳ中特征重要性小于0.01的特征删除,获取数据集Ⅴ;⑤最后利用降噪自编码器对数据集Ⅴ中的数据提取隐含特征;2-2.构建模型2-2-1.模型训练说明①.基于原始特征和特征工程步成的隐含特征,采用多种特征组合构建模型,通过模型参数的调整最终选择最优模型;所述的原始特征包括基础信息和第三方信息中的特征;②.将所有样本的70%作为模型的训练集,用于模型训练;30%作为模型的测试集,用于评估模型的训练结果;③.利用XGBOOST模型对样本进行训练,通过不断的迭代调参,得到模型的ROC曲线、AUC值和特征重要性;2-2-2.建模流程:在booster模型上选择效果更佳的树模型,学习目标上采用二分类的逻辑回归问题,损失函数如下:公式说明:—表示预测用户逾期的概率yi—表示用户实际是否逾期。2.根据权利要求1所述的一种基于医疗美容场景的客户违约概率预测方法,其特征在于步骤3所述的效果验证,具体实现如下:3-1.模型采用的评估指标采用了最常见的AUC和KS值作为模型的评估指标;3-1-1.AUC值AUC值其实是ROC曲线下的面积,ROC曲线横轴是FPR(假阳率),纵轴是TPR(正阳率),这2指标的计算公式如下:FPR=FP/(FP+TN)TPR=TP/(TP+FN)其中:TP:预测类别是P(正例),真实类别也是PFN:预测类别是N,真实类别是PFP:预测类别是P,真实类别是N(反例)TN:预测类别是N,真实类别也是NAUC值介于0.1和1之间,AUC作为数值能够直观的评价分类器的好坏,值越大越好,计算公式参照如下:公式说明:M-正类样本的数目N-负类样本的数据Rank-对预测的score从大到小排序,然后令最大score对应的样本的rank为n,第二大score对应的样本的rank为n-1,以此类推;3-1-2.KS值KS(洛伦兹曲线)-用于区分预测正负样本分隔程度的评价指标,计算公式如下:KS=MAX(TPR-FPR);3-2.模型验证结果其主要参数设置如下:1.learning_rate(学习率):0.09,2.max_depth(最大树深):3,3.n_estimators(迭代轮数):150,4.gamma(用于控制是否后剪枝的参数):5,5.reg_lambda(控制模型L2正则化项参数):5,6.reg_alpha(控制模型L1正则化项参数):5,7.subsample(训练模型的子样本占整个样本集合的比例):0.8,8.colsample_bytree(列采样):0.8模型表现如下:本专利技术有益效果如下:本专利技术依托分布式大数据集群平台,进行实时的数据采集、处理与计算,快速获取丽人客户各类历史信息,结合机器学习中强大的集成学习算法,精准预判每个丽人客户的信用状况,解决了该群体信用评估难的问题。本专利技术中的大数据规模、高维度、实时性与精准评分是本专利技术最大优势。附图说明图1为本专利技术模型ROC曲线;图2为本专利技术模型分位图;图3为本专利技术正负样本分布图;具体实施方式下面结合附图和实施例对本专利技术作进一步说明。一种基于医疗美容场景的客户违约概率预测方法,包括如下步骤:步骤1、用户违约因素的确认。步骤2、构建模型进行迭代及运算。步骤3、效果验证。步骤1所述用户违约因素的确认,具体实现如下:将影响用户逾期的特征大致分为两大类,基础信息和第三方数据信息。1.1基础信息基础信息包括申请人基本数据、申请设备数据以及衍生数据;申请人基本数据是指用户在申请贷款过程中填写的个人信息,包括年龄、申请项目金额、手术项目类型、医疗机构信息、借款金额、借款期限、申请地、户籍地等;申请设备数据包括申请设备名称、系统、版本、设备id等;衍生数据包括申请人户籍地GDP排名、申请地GPD排名、申请本文档来自技高网...

【技术保护点】
1.一种基于医疗美容场景的客户违约概率预测方法,其特征在于包括如下步骤:步骤1、用户违约因素的确认;步骤2、构建模型进行迭代及运算;步骤3、效果验证;步骤1所述用户违约因素的确认,具体实现如下:将影响用户逾期的特征分为两大类:基础信息和第三方数据信息;1.1基础信息基础信息包括申请人基本数据、申请设备数据以及衍生数据;申请人基本数据是指用户在申请贷款过程中填写的个人信息,包括年龄、申请项目金额、手术项目类型、医疗机构信息、借款金额、借款期限、申请地、户籍地;申请设备数据包括申请设备名称、系统、版本、设备id;衍生数据包括申请人户籍地GDP排名、申请地GPD排名、申请地与户籍地是否一致,具体参看表1;其中身份证户籍地区、申请地GDP情况是根据该地区于2017年人均GDP的全国排名,将此排名作为特征项加入模型中;表1 基础信息

【技术特征摘要】
1.一种基于医疗美容场景的客户违约概率预测方法,其特征在于包括如下步骤:步骤1、用户违约因素的确认;步骤2、构建模型进行迭代及运算;步骤3、效果验证;步骤1所述用户违约因素的确认,具体实现如下:将影响用户逾期的特征分为两大类:基础信息和第三方数据信息;1.1基础信息基础信息包括申请人基本数据、申请设备数据以及衍生数据;申请人基本数据是指用户在申请贷款过程中填写的个人信息,包括年龄、申请项目金额、手术项目类型、医疗机构信息、借款金额、借款期限、申请地、户籍地;申请设备数据包括申请设备名称、系统、版本、设备id;衍生数据包括申请人户籍地GDP排名、申请地GPD排名、申请地与户籍地是否一致,具体参看表1;其中身份证户籍地区、申请地GDP情况是根据该地区于2017年人均GDP的全国排名,将此排名作为特征项加入模型中;表1基础信息1.2第三方数据信息①用户在其他借贷平台的申请借贷信息,包括个体在其他多个平台提出的借贷申请或是已借款的相关信息;②用户常用APP活跃度信息;③用户各类信用评分信息;基于第三方数据公司获取用户群体在其它多个平台的借贷申请或已借款的相关信息,包括个人信息核查、不良信息扫描、多平台借贷申请、信贷逾期信息和司法不良记录,其具体内容如表2:表2第三方借贷信息基于用户申请时使用的终端设备,借助第三方平台获取终端设备相关信息,具体内容如表3:表3第三方设备活跃度信息基于用户申请注册用的手机号码,借助第三方平台获取手机号运营商信息,具体内容如表4:表4第三方运营商数据信息基于用户申请注册用的姓名、手机和身份证,借助第三方平台获取用户的信用评分信息,具体内容如表5:表5第三方数据信用信息2.根据权利要求1所述的一种基于医疗美容场景的客户违约概率预测方法,其特征在于步骤2所述的构建模型进行迭代及运算,具体实现如下:2-1.特征工程:①清洗异常数据、异常样本:若采集的数据样本60%以上的特征数据为空,则剔除该样本;获取新的数据集I;所述的数据样本是指步骤中采集到的基础信息或通过第三方采集到的数据信息;②针对数据集I中的缺失值,采用随机森林插补法填充,获取数据集Ⅱ;③特征筛选:首先将数据集Ⅱ中的所有数据进行IV值计算,将其中IV值小于设定值的数据进行删除,获得数据集Ⅲ;④基于随机森林学习模型的特征排序(Modelbasedranking),对数据集Ⅲ进行排序,获取数据集Ⅳ,对数据集Ⅳ中特征重要性小于0.01的特征删除,获取数据集Ⅴ;...

【专利技术属性】
技术研发人员:韦虎李若焱
申请(专利权)人:盈盈杭州网络技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1