基于图论算法的关联企业反欺诈模型构建方法及系统技术方案

技术编号:34789694 阅读:38 留言:0更新日期:2022-09-03 19:52
本发明专利技术公开了一种基于图论算法的关联企业反欺诈模型构建方法及系统,属于数据挖掘技术领域,其方法包括:提取实体和实体对应的属性,将实体作为图谱中的节点,于各个节点之间建立关系边线;统计每两个节点的关系深度;计算并筛选入模特征变量,划分训练样本和测试样本,训练模型并评估模型效果;其系统包括构建关联图谱模块、统计关联入模特征变量模块、筛选入模特征变量模块、划分训练和测试样本模块、训练模型模块和评估模型有效性模块。所述基于图论算法的关联企业反欺诈模型构建方法及系统解决了现有的反欺诈模型构建方式得到的反欺诈模型反映出的企业情况精准度低的问题。题。题。

【技术实现步骤摘要】
基于图论算法的关联企业反欺诈模型构建方法及系统


[0001]本专利技术涉及数据挖掘
,特别是一种基于图论算法的关联企业反欺诈模型构建方法及系统。

技术介绍

[0002]金融机构对于企业的风控模型相对不够成熟完善,一方面企业信息对比个人信息维度较单一,格式化程度也较低,企业的经营信息更多停留在纸质存储且格式不一的物流收发单、水电单、发票订单以及未经审计的财务报表,反映企业真实经营状况有限;另一方面,现有的针对企业的征信产品大同小异,主要是公开的工商和司法涉诉信息,虽然提供了企业间的关联信息,但只是局部的部分关联,而且没有进一步结合企业本身的经营标签作为客群好坏区分,如此,用得到的反欺诈模型反映出的企业情况精准度低。

技术实现思路

[0003]针对上述缺陷,本专利技术的一个目的在于提出一种基于图论算法的关联企业反欺诈模型构建方法,解决了现有的反欺诈模型构建方式得到的反欺诈模型反映出的企业情况精准度低的问题。
[0004]针对上述缺陷,本专利技术的另一个目的在于提出一种基于图论算法的关联企业反欺诈模型构建系统,解决了现有本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于图论算法的关联企业反欺诈模型构建方法,其特征在于,包括:构建关联图谱步骤:从传统关系型数据库中获取原业务数据,并提取原业务数据中的实体和实体对应的属性,将实体作为图谱中的节点,于各个节点之间建立关系边线;其中,所述实体为原业务数据中的企业和个人,实体对应的属性包括实体的好坏标签;统计关联入模特征变量步骤:利用Dijkstra算法计算图谱中任意两个节点间的最短路径后,统计每两个节点的关系深度为度,计算关系深度为度下的维度属性关联指标,得到特征变量,其中,为两个节点间的最短路径的关系边线的数量,且;筛选入模特征变量步骤:根据实体的好坏标签以及不同深度的特征变量,计算每个特征变量对应的特征性能评估指标IV;筛选出IV大于0.02的特征变量作为入模特征变量;划分训练和测试样本步骤:根据随机种子将含有入模特征变量的全部实体划分为训练样本和测试样本;训练模型步骤:将训练样本输入LR逻辑回归模型进行训练;评估模型有效性步骤:将测试样本输入到训练后的LR逻辑回归模型得到输出的模型预测结果,将输出的模型预测结果结合测试样本的好坏标签,计算训练后的LR逻辑回归模型的KS指标和AUC指标;输出KS指标位于KS有效阈值区间以及AUC指标大于AUC有效阈值的训练后的LR逻辑回归模型。2.根据权利要求1所述的基于图论算法的关联企业反欺诈模型构建方法,其特征在于:在所述统计关联入模特征变量步骤中,所述Dijkstra算法具体为:S1:设定图谱G={V,E},其中V为图谱中的所有节点的集合,E为各个节点之间的关系边线的集合;设定集合S={V0},V0为在集合V中随机选取的首节点;设定未确定最短路径的节点的集合T=V

S;计算集合T中的所有节点与首节点V0的距离d(V0,Vi),Vi为集合T中的第i个节点;当节点Vi与首节点V0能在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为首节点V0和节点Vi之间的弧上的权值;当节点Vi与首节点V0没有在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为无限大;S2:从集合T中选取一个与集合S中的首节点V0能建立关系边线且距离d(V0,Vi)最小的节点Vi作为中间节点W,并加入到集合S中;S3:将中间节点W从集合T中删除以更新集合T,计算集合T中的所有节点与首节点V0的距离d(V0,Vi);当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)小于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,将距离d(V0,Vi)更新为加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi);当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)大于或等于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,不更新距离d(V0,Vi);重复步骤S2和S3,直到集合T内的节点数为0为止。3.根据权利要求2所述的基于图论算法的关联企业反欺诈模型构建方法,其特征在于:在所述筛选入模特征变量步骤中,特征变量对应的特征性能评估指标IV的计算公式为:;
其中,对于每个特征变量,于该特征变量的值域内按卡方分箱方式分为个分箱, 为该特征变量中第个分箱的好坏标签为坏的实体的数量,为该特征变量中第个分箱的好坏标签为好的实体的数量,为原业务数据中好坏标签为坏的实体的数量,为原业务数据中好坏标签为好的实体的数量,。4.根据权利要求3所述的基于图论算法的关联企业反欺诈模型构建方法,其特征在于:在所述评估模型有效性步骤中,KS指标的计算步骤为:利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;根据模型结果分值对所有实体进行升序排列,并对升序排列后的所有实体进行等距分组;单独计算每个分组的好实体比率,表示第j分组中好坏标签为好的实体的累计数量占原业务数据中好坏标签为好的实体的数量的比率,j=1,
……
y,y为分组数,并计算好实体累加比率,所述好实体累加比率包括至,其中为第1个分组的比率,为第1个分组的比率至第y个分组的比率的总和;单独计算每个分组的坏实体比率,表示第j分组中好坏标签为坏的实体的累计数量占原业务数据中好坏标签为坏的实体的数量的比率,然后计算坏实体累加比率,坏实体累加比率包括至,其中为第1个分组的比率,为第1个分组的比率至第y个分组的比率的总和;将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值,并选取最大值为KS指标。5.根据权利要求4所述的基于图论算法的关联企业反欺诈模型构建方法,其特征在于:在所述评估模型有效性步骤中,AUC指标的计算步骤为:利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;在模型结果分值域内,从小到大等距分组,其中每个分组的分值上限为该分组的好坏阈值;测试样本中的所有实体均与每个分组的好坏阈值进行比较,进行预测好坏判定;当单个实体的模型结果分值大于或等于对应分组的好坏阈值时,判定该实体为该分组中的预测好实体,当单个实体的模型结果分值小于对应分组的好坏阈值时,判定该实体为该分组中的预测坏实体;在每个分组中,当好坏标签为好的实体为预测好实体时,标记该实体为真阳;当好坏标签为好的实体为预测坏实体时,标记该实体为假阴;当好坏标签为坏的实体为预测好实体时,标记该实体为假阳;当好坏标签为坏的实体为预测坏实体时,标记该实体为真阴;分别统计每个分组中的真阳的实体个数为TP,假阴的实体个数为FN,假阳的实体个数为FP,真阴的实体个数为TN;计算每个分组内的真阳率TPR=TP/(TP+FN);计算每个分组内的的假阳率FPR=FP/(FP+TN);以假阳率FPR为X轴、真阳率TPR为Y轴,将不同分组的点(FPR,TPR)连通得到ROC曲线,AUC指标为ROC曲线下的面积。6.一种基于图论算...

【专利技术属性】
技术研发人员:麦健尧
申请(专利权)人:广东中盈盛达数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1