一种基于机器学习和大数据技术的信用评分构建方法技术

技术编号:18205316 阅读:44 留言:0更新日期:2018-06-13 06:47
本发明专利技术公开了一种基于机器学习和大数据技术的信用评分构建方法,其特征在于,具体包括以下步骤:构建信贷主体人统一用户ID;将具有统一用户ID的信贷主体人数据进行提取和预处理成训练样本数据;通过机器学习分类算法‑集成树模型构建信用风险模型,根据信用风险模型获取风险概率;将风险概率自动转换为信用风险评分。本发明专利技术通过ID‑Mapping技术实现了信贷主体人的全域多维度大数据的高效准确的集成与融合,为信用风险模型的构建提供了信贷主体人的全域数据,并在此之上运用机器学习和大数据技术对信贷主体人进行定量信用风险分析从而提升了金融风控能力和降低信贷风险。

【技术实现步骤摘要】
一种基于机器学习和大数据技术的信用评分构建方法
本专利技术涉及金融风控
,特别是涉及一种基于机器学习和大数据技术的信用评分构建方法。
技术介绍
当下,我国金融改革持续深化,以互联网金融为代表的普惠金融呈爆发式增长。2015年我国消费信贷规模达到19万亿,同比增长23.3%,据第三方权威报告预计2019年将达到41.1万亿之巨。风口背后,一方面是传统金融未服务到的人群基数庞大,且长期缺乏金融产品,因此普惠金融是刚需,规模、潜力巨大;另一方面,移动互联网设备迅速普及,新型交互模式极大提升信贷效率,且数据爆发时代使得海量数据获取成本和难度大幅降低,在此之上运用机器学习技术对庞大人群进行定量风险分析并对应匹配合理的金融服务不仅成为可能,而且规模效应明显。因此,整个金融行业正在技术、资本和市场的共同作用下发生数字化重构,面对剧烈变化的商业竞争格局和愈加完善的政府监管措施,金融机构纷纷寻求成熟的相关技术以强化其数据化风险体系。但在实际操作中,由于互联网数据(如行为,电商,社交等数据)与传统征信数据(如信贷记录,银行流水,房产证件等数据)存在天然的巨大差别,传统的金融风险数据技术往往难以对新型互联网数据进行有效的风险价值提取,更无法支撑普惠金融下高并发实时的金融业务需求,具体难点分解如下:(1)数据融合困难,数据一般来自多个渠道和系统,异质异构,且形式多样,诸如文本,时序,影像等类型,数据打通具有较大难度;(2)数据使用困难,由于数据复杂度极大提升,且具有非结构化,低饱和,稀疏等特性,人工定义特征普遍耗时耗力,效率低;(3)数据风险建模困难,特征加工之后往往会产生上千甚至上万维度变量,远远超出传统风控建模基于LR和评分卡体系的处理能力范围,急需更前沿的机器学习算法处理相应特征;(4)模型集成困难,由于单一模型可能存在性能不稳定的问题,往往需要对不同模型进行集成以增强稳定性和泛化能力,传统方式缺乏相应的探索与验证;(5)数据链条整合困难,从数据接入,预处理,特征加工到风险建模与迭代,形成持续优化的完整闭环系统,并且能够快速迁移和复用进不同金融业务取得实际效果,也需要较长时间的积累和打磨。因此,金融风控领域急需一套更加科学合理以及成熟的基于机器学习和全域大数据技术的信用风险评分构建方法来提升金融风控能力、降低信贷风险。
技术实现思路
本专利技术的目的是克服现有技术的不足,设计出一种基于机器学习和大数据技术的信用评分构建方法。为达到上述目的,本专利技术所采用的技术方案是:一种基于机器学习和大数据技术的信用评分构建方法,具体包括以下步骤:步骤1:构建信贷主体人统一用户ID;步骤2:将具有统一用户ID的信贷主体人数据进行提取和预处理成训练样本数据;步骤3:通过机器学习分类算法-集成树模型构建信用风险模型;具体地,首先,对所述训练样本数据的文本数据、时序数据和移动设备行为数据进行分析,自动提取得到其样本特征;其次,预设超参数最佳选择空间,根据特征选择后的训练样本数据和机器学习分类算法-集成树模型的标准性能指标,利用贝叶斯优化算法自动寻找出最佳超参数组合;根据机器学习分类算法-集成树模型以及最佳超参数组合构建出行为风险子模型、社交风险子模型和语义风险子模型;然后,根据行为风险子模型、社交风险子模型和语义风险子模型获得信用风险集成模型;最后,根据信用风险集成模型获取风险概率;步骤4:将风险概率自动转换为信用风险评分。作为优选地,所述步骤1中构建信贷主体人统一用户ID的具体步骤为:首先,从主流数据平台获取同一信贷主体人的各类身份原始数据;然后,利用ID-Mapping技术将获取的各类数据信息会聚融合成可唯一标识信贷主体人身份的统一用户ID。作为优选地,所述主流数据平台包括关系型数据库、分布式数据存贮系统、本地文件、在线实时服务调用数据接口。作为优选地,所述同一信贷主体人的各类身份原始数据包括身份证号、手机号、设备号、用户编号。作为优选地,所述步骤2中将具有统一用户ID的信贷主体人身份数据预处理成训练样本数据的具体步骤为:判断信贷主体人身份数据的数据类型,所述数据类型包括离散型数据和连续型数据;当所述信贷主体人身份数据为离散型数据时,对该数据进行去重复值处理、离散数据填补缺失值处理、去噪音处理以及离散数据特征变换处理;所述离散数据填补缺失值处理包括用户选择、直接丢弃、归为新类别和最高频类别;所述离散数据特征变换处理为二值化/哑编码处理;当所述信贷主体人身份数据为连续型数据时,对该数据进行去重复值处理、连续数据填补缺失值处理、去噪音处理以及连续数据特征变换处理;所述连续数据填补缺失值处理包括用户选择、均值、归为新类和直接丢弃;所述连续数据特征变换处理包括用户选择、无量纲化、归一化/标准化、取对数。作为优选地,所述训练样本数据的样本特征包括身份属性、履约能力、信贷历史、行为特质、消费偏好和社交影响。作为优选地,所述机器学习分类算法-集成树模型采用LightGBM集成树模型、随机森林或XGBoost集成树模型。作为优选地,所述贝叶斯优化算法采用GridSearch算法、RandomSearch算法或Hyperopt/skopt算法。作为优选地,所述步骤4中风险概率转换为信用风险评分的计算公式为:Factor=pdo/ln(2);Odds0=(1-prob_1)/prob_1;Offset=score0–Factor*ln(Odds0));Score=offset+Factor*ln(Odds));其中,Factor为Offset计算时使用的调整系数;pdo为好坏比增加一倍时增加的信用分数;Offset为计算Score时使用的调整分数变量;score0为好坏比为1时所对应的信用分,一般取值575;Odds为好坏比,好定义为未违约,坏为违约;prob_1为风险概率输出;Score为最终计算出的信用风险评分。本专利技术的积极有益效果:1、本专利技术的基于机器学习和大数据技术的信用评分构建方法,通过ID-Mapping技术实现了信贷主体人的全域多维度大数据的高效准确的集成与融合,为信用风险模型的构建提供了信贷主体人的全域数据,并在此之上运用机器学习和大数据技术对信贷主体人进行定量信用风险分析从而提升了金融风控能力和降低信贷风险。2、通过采用互联网级别的机器学习分类算法-集成树算法,极大提升了对高维、稀疏、低饱和的大数据的处理和风控建模能力,提升了模型算法训练时间性能、模型的准确性、稳定性。3、本专利技术实现了模型算法的并行化(时间性能优化)、参数预置、自动调参、模型评估,形成Piepline式建模方式,从而使得模型构建智能化、标准化、快速化。附图说明图1为本专利技术方法流程图。图2为将多种身份数据融合成统一用户ID的示意图。图3为构建信贷主体人统一用户ID的流程图。图4为信贷主体人数据预处理的流程图。图5为构建信用风险模型的流程图。图6为训练样本数据特征提取的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明了,下面通过附图中示出的具体实施例来描述本专利技术。但是应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。结合图1说明本实施方式,本专利技术的基于机器学习和大数据本文档来自技高网
...
一种基于机器学习和大数据技术的信用评分构建方法

【技术保护点】
一种基于机器学习和大数据技术的信用评分构建方法,其特征在于,具体包括以下步骤:步骤1:构建信贷主体人统一用户ID;步骤2:将具有统一用户ID的信贷主体人数据进行提取和预处理成训练样本数据;步骤3:通过机器学习分类算法‑集成树模型构建信用风险模型;具体地,首先,对所述训练样本数据的文本数据、时序数据和移动设备行为数据进行分析,自动提取得到其样本特征;其次,预设超参数最佳选择空间,根据特征选择后的训练样本数据和机器学习分类算法‑集成树模型的标准性能指标,利用贝叶斯优化算法自动寻找出最佳超参数组合;根据机器学习分类算法‑集成树模型以及最佳超参数组合构建出行为风险子模型、社交风险子模型和语义风险子模型;然后,根据行为风险子模型、社交风险子模型和语义风险子模型获得信用风险集成模型;最后,根据信用风险集成模型获取风险概率;步骤4:将风险概率自动转换为信用风险评分。

【技术特征摘要】
1.一种基于机器学习和大数据技术的信用评分构建方法,其特征在于,具体包括以下步骤:步骤1:构建信贷主体人统一用户ID;步骤2:将具有统一用户ID的信贷主体人数据进行提取和预处理成训练样本数据;步骤3:通过机器学习分类算法-集成树模型构建信用风险模型;具体地,首先,对所述训练样本数据的文本数据、时序数据和移动设备行为数据进行分析,自动提取得到其样本特征;其次,预设超参数最佳选择空间,根据特征选择后的训练样本数据和机器学习分类算法-集成树模型的标准性能指标,利用贝叶斯优化算法自动寻找出最佳超参数组合;根据机器学习分类算法-集成树模型以及最佳超参数组合构建出行为风险子模型、社交风险子模型和语义风险子模型;然后,根据行为风险子模型、社交风险子模型和语义风险子模型获得信用风险集成模型;最后,根据信用风险集成模型获取风险概率;步骤4:将风险概率自动转换为信用风险评分。2.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述步骤1中构建信贷主体人统一用户ID的具体步骤为:首先,从主流数据平台获取同一信贷主体人的各类身份原始数据;然后,利用ID-Mapping技术将获取的各类数据信息会聚融合成可唯一标识信贷主体人身份的统一用户ID。3.根据权利要求2所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述主流数据平台包括关系型数据库、分布式数据存贮系统、本地文件、在线实时服务调用数据接口。4.根据权利要求2所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述同一信贷主体人的各类身份原始数据包括身份证号、手机号、设备号、用户编号。5.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述步骤2中将具有统一用户ID的信贷主体人身份数据预处理成训练样本数据的具体步骤为:判断信贷主体人身份数据的数据类型,所述数据类型包括离散型数据和连续型数据;当所述信贷主体人身份数据为离...

【专利技术属性】
技术研发人员:周春英朱明杰闵薇朱敏袁克皋
申请(专利权)人:上海氪信信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1