基于知识图谱和机器学习算法挖掘银行潜在授信客户方法技术

技术编号:22566091 阅读:77 留言:0更新日期:2019-11-16 12:28
本发明专利技术提供了基于知识图谱和机器学习算法挖掘银行潜在授信客户方法,包括如下步骤:1、样本采集阶段;2、数据预处理阶段;3、模型训练阶段。本发明专利技术的优点在于:运用高效的XGBoost集成分类器训练潜在授信客户预测模型,挖掘出具有营销更高成功率的潜在授信客户,实现对客户进行精准营销;该发明专利技术的广泛应用和推广,将给予业务人员提供更加营销价值的授信客户,提高了一线业务人员的工作效率,为银行开展授信业务有着重大的意义和应用价值;首次将基于图谱提取特征的方式应用到潜在授信客户挖掘,从而推广了知识图谱的应用范围,更进一步地促进知识图谱的发展;对处理样本不均匀问题的解决具有良好效果。

Method of mining potential credit customers based on knowledge map and machine learning algorithm

The invention provides a method for mining bank potential credit customers based on knowledge map and machine learning algorithm, which comprises the following steps: 1. Sample collection stage; 2. Data preprocessing stage; 3. Model training stage. The invention has the advantages of: using the efficient xgboost integrated classifier to train the prediction model of potential credit customers, mining the potential credit customers with higher success rate of marketing, and realizing the precise marketing of customers; the wide application and promotion of the invention will provide more marketing value credit customers to the business people, improve the work efficiency of the front-line business people, and provide the bank with more marketing value It is of great significance and application value for the bank to carry out credit business; for the first time, the method based on the extracted features of the atlas is applied to the mining of potential credit customers, so as to promote the application scope of the knowledge atlas and further promote the development of the knowledge atlas; it has a good effect on solving the problem of uneven samples.

【技术实现步骤摘要】
基于知识图谱和机器学习算法挖掘银行潜在授信客户方法
本专利技术涉及一种挖掘银行潜在授信客户的方法,尤其是一种高效、精准、处理样本均匀的基于知识图谱和机器学习算法挖掘银行潜在授信客户方法。
技术介绍
授信是企业向银行申请融资必须先取得的前置条件,是使用银行一般贷款、贸易融资、供应链产品的前提,优质的对公授信客户,粘性高,能够为银行带来利息和手续费收入。当前银行发展授信客户主要途径有:一是客户有信贷需求直接到银行网点和客户经理咨询相关业务,这种称之为自来客户;二是银行网点信贷客户经理根据人际关系寻找授信客户;三是有专门的信贷业务人员通过撒网式地电话咨询或者登门拜访咨询客户是否有信贷业务需求。诚然,前两种获取授信客户的方式是行之有效的,而且能够转化为授信客户的概率是非常高的。然而这两种方式获取到的客户是非常有效的,显然不能够满足银行信贷业务发展的需要。第三种撒网式的咨询虽然能够接触到更多的客户,但是需要花费大量的人力物力,并且真正能转化为授信客户的少知之甚少。如何改变传统获取授信客户的营销方式,提高营销效率和准确度,在第一时间获取并提高优质授信客户的数量,基于企业知识图谱和机器学习相结合的挖掘模式提供了新的方法和思路。近年来,随着大数据技术的快速发展和计算机运算的能力快速提升。机器学习以及深度学习技术在银行业使用越来越广发,并在很多应用场景取得了重大成果。例如Logistics回归、SVM、XGBoost、以及神经网络等模型在银行反欺诈系统取得良好的效果。其中XGBoost是一个高效、灵活和便携的机器学习系统,它是在GradientBoosting框架下实现并行树提升集成方法,可以快速准确地解决许多数据科学问题。据了解,尽管高效集成的机器学习算法在银行也具有广泛的应用,但是在潜在授信客户挖掘相关应用相对较少,而且基于企业知识图谱关系特征挖掘的文献几乎没有。
技术实现思路
为解决上述问题,本专利技术提供了一种高效、精准、处理样本均匀的基于知识图谱和机器学习算法挖掘银行潜在授信客户方法。基于知识图谱和机器学习算法挖掘银行潜在授信客户方法,包括如下步骤:1、样本采集阶段以企业的控股关系、实际控制人关系、一致行动人、密切资金往来关系、密切票据交易关系、以及密切受托支付关系构建企业知识图谱G(E,V),顶点和各种边的属性分别为如下:顶点属性:名称、是否行内客户;控股关系边属性:持股金额、持股比例、开始时间、结束时间;实际控制人关系边属性:开始时间、结束时间;一致行动人边属性:开始时间、结束时间;密切资金往来关系边属性:转账金额、转账时间;密切票据交易关系边属性:票据金额、出票时间;密切受托支付关系边属性:支付金额、支付时间;根据节点一度邻居的关系构建特征,对于每一种关系,聚合邻居为银行存量(以下简称为“行内”)客户的节点信息作为当前节点在该关系维度下的特征,其中各种关系构建的特征如下:控股关系:行内企业客户股东总数、行内企业客户股东最大持股金额、行内企业客户股东最大持股比例、行内企业客户股东平均持股金额、行内企业客户股东平均持股比例、行内自然人客户股东总数、行内自然人客户股东最大持股金额、行内自然人客户股东最大持股比例、行内自然人客户股东平均持股金额、行内自然人客户股东平均持股比例,共10个特征;实际控制人关系:实际控制行内企业数量,共1个特征;一致行动人:与行内企业具有一致行动关系的客户数量,共1个特征;密切资金往来关系:资金密切付款方为行内公司客户数、资金密切付款方为行内自然人客户数、资金密切收款方为行内公司客户数、资金密切收款方为行内自然人客户数、行内公司客户最大入账金额、行内自然人客户最大入账金额、行内公司客户最大入账笔数、行内自然人客户最大入账笔数、行内公司客户最大出账金额、行内自然人客户最大出账金额、行内公司客户最大出账笔数、行内自然人客户最大出账笔数、行内公司客户平均入账金额、行内自然人客户平均入账金额、行内公司客户平均入账笔数、行内自然人客户平均入账笔数、行内公司客户平均出账金额、行内自然人客户平均出账金额、行内公司客户平均出账笔数、行内自然人客户平均出账笔数,共20个特征;密切票据交易关系:出票人为行内客户数目、最大票据金额、最大票据笔数、平均票据笔数、平均票据金额,共5个特征;密切受托支付关系:受托支付委托人为行内客户数目、最大收款金额、最大收款笔数、平均收款金额、平均收款笔数,共5个特征;实体属性:是否为行内客户,共1个特征;上述的特征维度从各个关系层面反映了企业和行内存量客户之间的关联亲密程度,从直观上来看,一个非授信客户如果和行内客户的关系越密切,则该客户就更有可能是潜在的授信客户,这里关系型泛化延伸出来的特征和当前节点自身的特征总共43个;在选定特征之后,接下来构建样本集,由于本专利技术的目的是根据该企业的历史行为或者图谱关系特征进行预测客户是否是潜在客户,而判断一个企业是否是潜在客户就是观察该企业在未来一段时间内是否能转化为授信客户,如果该企业在未来一段时间内能够成功授信,则说明该企业是潜在授信客户,否则为非潜在授信客户,因此对于每一个样本(企业)来说,分别定义观察期和表现期,其中观察期是企业过去历史图谱关联关系的特征,如控股、资金往来等表现情况,观察期取值时长为6个月;表现期指的是客户经过观察期之后,考察是否发生了授信行为(即是否首次授信)的时间段,表现期时长取值3个月;具体采样步骤如下:步骤1:选取近两年的企业关系图谱数据和信贷系统授信情况数据,按照月为单位对数据按时间轴进行切面,选取划分时点为每月1日,分别划分为24个月的截面数据;步骤2:对知识图谱中的每个企业A,在第7个月至第21个月,每月采样一次,特征值的计算方式如下:求和类型特征:企业A的所有行内邻居节点之间对应关系属性值之和;平均类型特征:企业A的所有行内邻居节点之间对应关系属性值平均值;最大值类型特征:企业A的所有行内邻居节点之间对应关系属性值最大值;是否行内客户特征:直接根据当前企业A的是否行内企业,如是取值1否则取值0;例如,求图谱节点企业A在第7个月份采样时关于行内企业客户股东最大持股金额特征值的计算方式为:统计第1个月至第6个月内与企业A是一度邻居关系并且是行内企业的股东对企业A的投资金额总和,其他特征依次类推。从信贷系统数据中查找是否存在企业A在第7至第9个月内发生了首次授信,如果存在,y=1(正样本),否则y=0(负样本)。于是就得到关于企业A的样本(x,y)步骤3:对所有知识图谱中所有节点企业均按照步骤2进行采样,于是得到所有企业在不同时间点上对应43个特征值,以及对应的样本标签;按照上述步骤进行采样,过滤掉所有特征值均为0的样本,最终得到正样本3866个,负样本4147952个;2、数据预处理阶段样本文档来自技高网
...

【技术保护点】
1.基于知识图谱和机器学习算法挖掘银行潜在授信客户方法,其特征在于,包括如下步骤:/n1)、样本采集阶段/n以企业的控股关系、实际控制人关系、一致行动人、密切资金往来关系、密切票据交易关系、以及密切受托支付关系构建企业知识图谱G(E,V),顶点和各种边的属性分别为如下:/n顶点属性:名称、是否行内客户;/n控股关系边属性:持股金额、持股比例、开始时间、结束时间;/n实际控制人关系边属性:开始时间、结束时间;/n一致行动人边属性:开始时间、结束时间;/n密切资金往来关系边属性:转账金额、转账时间;/n密切票据交易关系边属性:票据金额、出票时间;/n密切受托支付关系边属性:支付金额、支付时间;/n根据节点一度邻居的关系构建特征,对于每一种关系,聚合邻居为银行存量(以下简称为“行内”)客户的节点信息作为当前节点在该关系维度下的特征,其中各种关系构建的特征如下:/n控股关系:/n行内企业客户股东总数、行内企业客户股东最大持股金额、行内企业客户股东最大持股比例、行内企业客户股东平均持股金额、行内企业客户股东平均持股比例、行内自然人客户股东总数、行内自然人客户股东最大持股金额、行内自然人客户股东最大持股比例、行内自然人客户股东平均持股金额、行内自然人客户股东平均持股比例,共10个特征;/n实际控制人关系:/n实际控制行内企业数量,共1个特征;/n一致行动人:/n与行内企业具有一致行动关系的客户数量,共1个特征;/n密切资金往来关系:/n资金密切付款方为行内公司客户数、资金密切付款方为行内自然人客户数、资金密切收款方为行内公司客户数、资金密切收款方为行内自然人客户数、行内公司客户最大入账金额、行内自然人客户最大入账金额、行内公司客户最大入账笔数、行内自然人客户最大入账笔数、行内公司客户最大出账金额、行内自然人客户最大出账金额、行内公司客户最大出账笔数、行内自然人客户最大出账笔数、行内公司客户平均入账金额、行内自然人客户平均入账金额、行内公司客户平均入账笔数、行内自然人客户平均入账笔数、行内公司客户平均出账金额、行内自然人客户平均出账金额、行内公司客户平均出账笔数、行内自然人客户平均出账笔数,共20个特征;/n密切票据交易关系:/n出票人为行内客户数目、最大票据金额、最大票据笔数、平均票据笔数、平均票据金额,共5个特征;/n密切受托支付关系:/n受托支付委托人为行内客户数目、最大收款金额、最大收款笔数、平均收款金额、平均收款笔数,共5个特征;/n实体属性:是否为行内客户,共1个特征;/n上述的特征维度从各个关系层面反映了企业和行内存量客户之间的关联亲密程度,从直观上来看,一个非授信客户如果和行内客户的关系越密切,则该客户就更有可能是潜在的授信客户,这里关系型泛化延伸出来的特征和当前节点自身的特征总共43个;/n在选定特征之后,接下来构建样本集,由于本专利技术的目的是根据该企业的历史行为或者图谱关系特征进行预测客户是否是潜在客户,而判断一个企业是否是潜在客户就是观察该企业在未来一段时间内是否能转化为授信客户,如果该企业在未来一段时间内能够成功授信,则说明该企业是潜在授信客户,否则为非潜在授信客户,因此对于每一个样本(企业)来说,分别定义观察期和表现期,其中观察期是企业过去历史图谱关联关系的特征,如控股、资金往来等表现情况,观察期取值时长为6个月;表现期指的是客户经过观察期之后,考察是否发生了授信行为(即是否首次授信)的时间段,表现期时长取值3个月;/n具体采样步骤如下:/n步骤1:选取近两年的企业关系图谱数据和信贷系统授信情况数据,按照月为单位对数据按时间轴进行切面,选取划分时点为每月1日,分别划分为24个月的截面数据;/n步骤2:对知识图谱中的每个企业A,在第7个月至第21个月,每月采样一次,特征值的计算方式如下:/n求和类型特征:/n企业A的所有行内邻居节点之间对应关系属性值之和;/n平均类型特征:/n企业A的所有行内邻居节点之间对应关系属性值平均值;/n最大值类型特征:/n企业A的所有行内邻居节点之间对应关系属性值最大值;/n是否行内客户特征:/n直接根据当前企业A的是否行内企业,如是取值1否则取值0;/n步骤3:对所有知识图谱中所有节点企业均按照步骤2进行采样,于是得到所有企业在不同时间点上对应43个特征值,以及对应的样本标签;/n按照上述步骤进行采样,过滤掉所有特征值均为0的样本,最终得到正样本3866个,负样本4147952个;/n2)、数据预处理阶段/n样本采样过程中得到的正负样本比例比较悬殊,正样本和负样本的比例是1∶1072,正负样本不均衡会导致模型对比例大的样本造成过拟合,即预测偏向样本数较多的分类,尽管模型的准确率很高,但是范化能力很差,为了平衡正负样本对模型训练的影响,本专利技术分别使用smote对正样本进行过采样和PU-Lea...

【技术特征摘要】
1.基于知识图谱和机器学习算法挖掘银行潜在授信客户方法,其特征在于,包括如下步骤:
1)、样本采集阶段
以企业的控股关系、实际控制人关系、一致行动人、密切资金往来关系、密切票据交易关系、以及密切受托支付关系构建企业知识图谱G(E,V),顶点和各种边的属性分别为如下:
顶点属性:名称、是否行内客户;
控股关系边属性:持股金额、持股比例、开始时间、结束时间;
实际控制人关系边属性:开始时间、结束时间;
一致行动人边属性:开始时间、结束时间;
密切资金往来关系边属性:转账金额、转账时间;
密切票据交易关系边属性:票据金额、出票时间;
密切受托支付关系边属性:支付金额、支付时间;
根据节点一度邻居的关系构建特征,对于每一种关系,聚合邻居为银行存量(以下简称为“行内”)客户的节点信息作为当前节点在该关系维度下的特征,其中各种关系构建的特征如下:
控股关系:
行内企业客户股东总数、行内企业客户股东最大持股金额、行内企业客户股东最大持股比例、行内企业客户股东平均持股金额、行内企业客户股东平均持股比例、行内自然人客户股东总数、行内自然人客户股东最大持股金额、行内自然人客户股东最大持股比例、行内自然人客户股东平均持股金额、行内自然人客户股东平均持股比例,共10个特征;
实际控制人关系:
实际控制行内企业数量,共1个特征;
一致行动人:
与行内企业具有一致行动关系的客户数量,共1个特征;
密切资金往来关系:
资金密切付款方为行内公司客户数、资金密切付款方为行内自然人客户数、资金密切收款方为行内公司客户数、资金密切收款方为行内自然人客户数、行内公司客户最大入账金额、行内自然人客户最大入账金额、行内公司客户最大入账笔数、行内自然人客户最大入账笔数、行内公司客户最大出账金额、行内自然人客户最大出账金额、行内公司客户最大出账笔数、行内自然人客户最大出账笔数、行内公司客户平均入账金额、行内自然人客户平均入账金额、行内公司客户平均入账笔数、行内自然人客户平均入账笔数、行内公司客户平均出账金额、行内自然人客户平均出账金额、行内公司客户平均出账笔数、行内自然人客户平均出账笔数,共20个特征;
密切票据交易关系:
出票人为行内客户数目、最大票据金额、最大票据笔数、平均票据笔数、平均票据金额,共5个特征;
密切受托支付关系:
受托支付委托人为行内客户数目、最大收款金额、最大收款笔数、平均收款金额、平均收款笔数,共5个特征;
实体属性:是否为行内客户,共1个特征;
上述的特征维度从各个关系层面反映了企业和行内存量客户之间的关联亲密程度,从直观上来看,一个非授信客户如果和行内客户的关系越密切,则该客户就更有可能是潜在的授信客户,这里关系型泛化延伸出来的特征和当前节点自身的特征总共43个;
在选定特征之后,接下来构建样本集,由于本发明的目的是根据该企业的历史行为或者图谱关系特征进行预测客户是否是潜在客户,而判断一个企业是否是潜在客户就是观察该企业在未来一段时间内是否能转化为授信客户,如果该企业在未来一段时间内能够成功授信,则说明该企业是潜在授信客户,否则为非潜在授信客户,因此对于每一个样本(企业)来说,分别定义观察期和表现期,其中观察期是企业过去历史图谱关联关系的特征,如控股、资金往来等表现情况,观察期取值时长为6个月;表现期指的是客户经过观察期之后,考察是否发生了授信行为(即是否首次授信)的时间段,表现期时长取值3个月;
具体采样步骤如下:
步骤1:选取近两年的企业关系图谱数据和信贷系统授信情况数据,按照月为单位对数据按时间轴进行切面,选取划分时点为每月1日,分别划分为24个月的截面数据;
步骤2:对知识图谱中的每个企业A,在第7个月至第21个月,每月采样一次,特征值的计算方式如下:
求和类型特征:
企业A的所有行内邻居节点之间对应关系属性值之和;
平均类型特征:
企业A的所有行内邻居节点之间对应关系属性值平均值;
最大值类型特征:
企业A的所有行内邻居节点之间对应关系属性值最大值;
是否行内客户特征:
直接根据当前企业A的是否行内企业,如是取值1否则取值0;
步骤3:对所有知识图谱中所有节点企业...

【专利技术属性】
技术研发人员:周家木
申请(专利权)人:北京海致星图科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1