基于图计算及社区划分算法区分信贷用户的方法及系统技术方案

技术编号:26305468 阅读:18 留言:0更新日期:2020-11-10 20:03
本发明专利技术公开了基于图计算及社区划分算法区分信贷用户的方法及系统,涉及信贷技术领域,本发明专利技术根据信贷用户的ssid、身份证号码和当前所在经纬度信息,即可获得信贷用户的户籍所在县以及用户当前所在的城市及区县;根据经纬度把商场的ssid剔除,剩余的ssid采用图计算的数据结构构建知识图谱,两个相关联的节点进行连线并作关联标注,标注为同事、老乡或同县区,采用图计算的数据结构构建知识图谱,通过对知识图谱进行随机游走序列把关联标注的关系生成embedding;按照社区划分算法对embedding进行切割,得到多个社群;再对社群进行标注划分以区分社群的好坏。本发明专利技术使得实行手工账管理的非常简单,便于联社对基层社发生的每笔业务进行有效的监控,区分信贷用户的好坏。

【技术实现步骤摘要】
基于图计算及社区划分算法区分信贷用户的方法及系统
本专利技术涉及信贷
,具体而言,涉及基于图计算及社区划分算法区分信贷用户的方法及系统。
技术介绍
信贷是指以偿还和付息为条件的价值运动形式。通常包括银行存款、贷款等信用活动,狭义上仅指银行贷款,广义上同“信用”通用。信贷是用有偿方式动员和分配资金的重要形式,是发展经济的有力杠杆。信贷是农村信用社运用资金取得效益最主要的途径,贷款质量的高低,直接关系到农村信用社的生存和发展。但由于农村信用社网点多、分布散、贷款笔数多、信贷员素质水平各异等原因,使得实行手工账管理的难度非常大,联社无法对基层社发生的每笔业务进行有效的监控,如何区分信贷用户的好坏成为急需解决的问题。
技术实现思路
为了克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供基于图计算及社区划分算法区分信贷用户的方法及系统,以便于区分信贷用户的好坏。本专利技术的实施例是这样实现的:第一方面,本专利技术提供一种基于图计算及社区划分算法区分信贷用户的方法,包括以下步骤:S100:获取信贷用户的ssid、身份证号码和当前所在经纬度;S200:通过清洗ssid和身份证号码前六位获取信贷用户的户籍所在县,根据经纬度获取信贷用户当前所在的城市及区县;S300:根据经纬度把商场的ssid剔除,把剩余的ssid记录并存储;S400:根据剩余的ssid,采用图计算的数据结构构建知识图谱,对相同的ssid作关联标注,并标注为同事,对剩余的ssid相同户籍所在地作关联标注,并标注为老乡,对剩余的ssid相同经纬度作关联标注,并标注为同县区;S500:通过对知识图谱进行随机游走序列把关联标注的关系生成embedding;S600:按照社区划分算法对embedding进行切割,得到多个社群;S700:对社群进行标注,标注的社区里面超过第一阈值违约的为坏用户社群,把低于第二阈值违约社群标注为好社群。在本专利技术的一些实施例中,还包括步骤S800:用常规机器学习算法xgboost进行训练,在知识图谱中,两个节点之间作关联标注的为关系向量,把社群中关系向量作为训练样本,好社群和坏社群标注作为目标target进行训练。在本专利技术的一些实施例中,还包括步骤S900:训练之后生成模型,当一个用户申请时先划分到社群,进行关系embedding,代入训练好的模型进行预测。在本专利技术的一些实施例中,在步骤S500中,生成embedding的方法包括采用node2vec算法。在本专利技术的一些实施例中,在步骤S700中,第一阈值为70%,第二阈值为10%。第二方面,本专利技术还提供一种基于图关系社群切分后区分信贷用户好坏的系统,包括:基本信息获取模块:用于获取信贷用户的ssid、身份证号码和当前所在经纬度;地区获取模块:用于通过清洗ssid和身份证号码前六位获取信贷用户的户籍所在县,根据经纬度获取信贷用户当前所在的城市及区县;剔除模块:用于根据经纬度把商场的ssid剔除,把剩余的ssid记录并存储;关联标注模块:用于根据剩余的ssid,采用图计算的数据结构构建知识图谱,对相同的ssid作关联标注,并标注为同事,对剩余的ssid相同户籍所在地作关联标注,并标注为老乡,对剩余的ssid相同经纬度作关联标注,并标注为同县区;Embedding生成模块:用于通过对知识图谱进行随机游走序列把关联标注的关系生成embedding;切割模块:用于按照社区划分算法对embedding进行切割,得到多个社群;社群划分模块:对社群进行标注,标注的社区里面超过第一阈值违约的为坏用户社群,把低于第二阈值违约社群标注为好社群。在本专利技术的一些实施例中,还包括:训练模块:用于用常规机器学习算法xgboost进行训练,在知识图谱中,两个节点之间作关联标注的为关系向量,把社群中关系向量作为训练样本,好社群和坏社群标注作为目标target进行训练。在本专利技术的一些实施例中,还包括:预测模块:用于训练之后生成模型,当一个用户申请时先划分到社群,进行关系embedding,代入训练好的模型进行预测。在本专利技术的一些实施例中,Embedding生成模块中,生成embedding的方法包括采用node2vec算法。在本专利技术的一些实施例中,社群划分模块中,第一阈值为70%,第二阈值为10%。本专利技术实施例至少具有如下优点或有益效果:本专利技术根据信贷用户的ssid、身份证号码和当前所在经纬度信息,即可获得信贷用户的户籍所在县以及用户当前所在的城市及区县,获得信贷用户地址的方式简单。考虑到会把商场的ssid记录进去造成误差,因此根据经纬度把商场的ssid剔除,并把剩余的ssid记录并存储,便于后续使用,根据剩余的ssid,采用图计算的数据结构构建知识图谱,对相同的ssid作关联标注,并标注为同事,对剩余的ssid相同户籍所在地作关联标注,并标注为老乡,对剩余的ssid相同经纬度作关联标注,并标注为同县区;采用图计算的数据结构构建知识图谱,具有直观、高效、快速的特点。通过对知识图谱进行随机游走序列把关联标注的关系生成embedding;按照社区划分算法对embedding进行切割,得到多个社群;对社群进行标注,标注的社区里面超过第一阈值违约的为坏用户社群,把低于第二阈值违约社群标注为好社群。使得实行手工账管理的非常简单,便于联社对基层社发生的每笔业务进行有效的监控,区分信贷用户的好坏。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术基于图计算及社区划分算法区分信贷用户的方法一实施例的流程图;图2为本专利技术基于图计算及社区划分算法区分信贷用户的方法另一实施例的流程图;图3为本专利技术基于图关系社群切分后区分信贷用户好坏的系统一实施例的框图;图4为本专利技术基于图计算及社区划分算法区分信贷用户的方法及系统一实施例的知识图谱;图5为本专利技术基于图计算及社区划分算法区分信贷用户的方法及系统另一实施例的知识图谱;图6为本专利技术基于图计算及社区划分算法区分信贷用户的方法及系统又一实施例的知识图谱。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本文档来自技高网...

【技术保护点】
1.基于图计算及社区划分算法区分信贷用户的方法,其特征在于,包括以下步骤:/nS100:获取信贷用户的ssid、身份证号码和当前所在经纬度;/nS200:通过清洗ssid和身份证号码前六位获取信贷用户的户籍所在县,根据经纬度获取信贷用户当前所在的城市及区县;/nS300:根据所述经纬度把商场的ssid剔除,把剩余的ssid记录并存储;/nS400:根据剩余的ssid,采用图计算的数据结构构建知识图谱,对相同的ssid作关联标注,并标注为同事,对剩余的ssid相同户籍所在地作关联标注,并标注为老乡,对剩余的ssid相同经纬度作关联标注,并标注为同县区;/nS500:通过对知识图谱进行随机游走序列把关联标注的关系生成embedding;/nS600:按照社区划分算法对embedding进行切割,得到多个社群;/nS700:对社群进行标注,标注的社区里面超过第一阈值违约的为坏用户社群,把低于第二阈值违约社群标注为好社群。/n

【技术特征摘要】
1.基于图计算及社区划分算法区分信贷用户的方法,其特征在于,包括以下步骤:
S100:获取信贷用户的ssid、身份证号码和当前所在经纬度;
S200:通过清洗ssid和身份证号码前六位获取信贷用户的户籍所在县,根据经纬度获取信贷用户当前所在的城市及区县;
S300:根据所述经纬度把商场的ssid剔除,把剩余的ssid记录并存储;
S400:根据剩余的ssid,采用图计算的数据结构构建知识图谱,对相同的ssid作关联标注,并标注为同事,对剩余的ssid相同户籍所在地作关联标注,并标注为老乡,对剩余的ssid相同经纬度作关联标注,并标注为同县区;
S500:通过对知识图谱进行随机游走序列把关联标注的关系生成embedding;
S600:按照社区划分算法对embedding进行切割,得到多个社群;
S700:对社群进行标注,标注的社区里面超过第一阈值违约的为坏用户社群,把低于第二阈值违约社群标注为好社群。


2.根据权利要求1所述的基于图计算及社区划分算法区分信贷用户的方法,其特征在于,还包括步骤S800:用常规机器学习算法xgboost进行训练,在知识图谱中,两个节点之间作关联标注的为关系向量,把社群中关系向量作为训练样本,好社群和坏社群标注作为目标target进行训练。


3.根据权利要求2所述的基于图计算及社区划分算法区分信贷用户的方法,其特征在于,还包括步骤S900:训练之后生成模型,当一个用户申请时先划分到社群,进行关系embedding,代入训练好的模型进行预测。


4.根据权利要求1所述的基于图计算及社区划分算法区分信贷用户的方法,其特征在于,在步骤S500中,生成embedding的方法包括采用node2vec算法。


5.根据权利要求1所述的基于图计算及社区划分算法区分信贷用户的方法,其特征在于,在步骤S700中,所述第一阈值为70%,所述第二阈值为10%。


6.基于图关系社群切分后区分信贷用...

【专利技术属性】
技术研发人员:陈德建崔岩莉
申请(专利权)人:中投国信北京科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1