一种企业疑似关联关系判定方法及系统技术方案

技术编号:23400003 阅读:169 留言:0更新日期:2020-02-22 12:16
本申请公开了一种一种企业疑似关联关系判定方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S130:在知识图谱中,基于企业工商信息判定企业疑似关联关系。本申请采用图数据库构建和存储知识图谱,基于企业工商信息、企业结构化信息和/或企业非结构化信息通过图计算企业疑似关联关系,具有直观、高效、快速的特点。

A method and system for judging suspected association of enterprises

【技术实现步骤摘要】
一种企业疑似关联关系判定方法及系统
本申请涉及一种基于图计算(GraphComputing)的数据存储与运算方法,特别是涉及一种基于图计算的对企业相关数据进行存储、对企业疑似关系进行判定的方法。
技术介绍
企业关联关系是指企业的控股股东、实际控制人、董事、监事等高管人员与其直接或者间接控制的企业之间的关系,以及可能导致公司利益转移的其他关系。当今社会,企业之间的关联关系日趋错综复杂,银行及相关单位因关联企业识别不充分所造成的各种风险乃至实际损失屡见不鲜。有效识别关联企业成为防止集团客户多头授信、过度授信、关联担保的关键要素,对保证银行信贷资产安全十分及时与必要。因此,通过合法合规的方式从各种不同来源采集企业和个人客户的数据进行融合、分析和挖掘解析出企业之间的关联关系,有利于实现金融风险防控、金融信息统计与预测等功能。企业关联关系又分为确定性关系和疑似关系。确定性的关联关系可以通过企业之间的股东关系、对外投资、分支关系、高管任职关系等直接得出。疑似关联关系则需要通过一系列的疑似因素挖掘分析,来发现企业之间的潜在联系。现有的企业疑似关联关系判定方法还局限于相同地址、相同高管人员等简单因素,不够严谨准确。图论(graphtheory)是数学的一个分支,它以图(graph)为研究对象。图论中的图是由若干给定的节点(也称顶点、点、vertice、node或point)及连接节点的边(也称线、edge、arc或line)所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用节点代表事物,用边表示两个事物间具有某种关系,用节点和/或边的属性或权重来描述事物和/或关系的特性。知识图谱(KnowledgeGraph)就是图计算的一种应用,它由若干节点和边组成。节点表示知识,节点之间的边表示知识之间的关系。如果两个节点之间存在关系,它们就会被一条边连接在一起。知识图谱通常使用图数据库(GraphDatabase)来进行存储,常用的有Neo4j等。目前,基于知识图谱的应用主要体现在信息检索上,用知识图谱的相关技术去挖掘企业信息还相对匮乏。
技术实现思路
本申请所要解决的技术问题是提供一种基于知识图谱的企业疑似关联关系判定方法、以及相应的判定系统。本申请以企业工商信息为基础,同时可选地结合涉及企业的结构化和非结构化数据,对企业各个维度的信息进行挖掘分析,并采用分值的方式统计企业之间的疑似关联度,对企业疑似关联关系进行判定。本申请可以减少对计算资源的要求,同时显著地提高企业信息的数据维度,增强了判定结果的可信度。为解决上述技术问题,本申请提供了一种企业疑似关联关系判定方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S130:在知识图谱中,基于企业工商信息判定企业疑似关联关系。上述企业疑似关联关系判定方法是本申请的实施例一,基于企业工商信息得到企业疑似关联关系。进一步地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据清洗,再基于清洗后的数据构建知识图谱。这样可以避免无效数据、错误数据等对构建知识图谱带来额外的负担,也能避免对后续运算带来干扰。进一步地,所述数据清洗包括企业基础属性合法性清洗、股权比例合法性检测清洗、高管数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。这是数据清洗的一种优选实现方式。进一步地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据标准化处理,再基于标准化后的数据构建知识图谱。这有利于后续进行的图运算,避免由于数据不标准而引起错误或偏差。进一步地,所述数据标准化包括以下操作的一种或多种;其一,将工商登记的地址信息进行分解和标准化;其二,将企业工商登记的邮箱域名和网址域名进行标准化,删除公共域名;其三,将企业登记的电话信息进行标准化。这是数据标准化的一种优选实现方式。进一步地,对企业工商信息中的股权数据和高管数据先进行数据清洗,再进行数据标准化处理,再基于清洗后和标准化后的数据构建知识图谱。这是一种优选的顺序安排。进一步地,所述知识图谱中,每一家企业及其直接持股股东、高管人员分别作为图中的每一个节点;直接持股股东节点对企业节点的直接投资关系以第一类边表示;高管人员节点在企业节点的高管任职关系以第二类边表示;同一自然人关系以第三类边表示。这是构建知识图谱的一种优选实现方式。进一步地,每个节点包含三个属性:实体ID、实体名称、实体类型;企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息。节点的属性在后续的图计算中会被用到。进一步地,所述边都具有类型属性,以区分不同类型的边。这用来区分边的不同类型。进一步地,所述步骤S120包括以下操作的任意一项或多项。当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增表征具有相同高管人员的第四类边。当任意两个企业节点的工商登记地址属性相同或相近,相近是指位于同一个办公楼中,则在这两个企业节点之间新增表征具有共同地址的第五类边。当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同,则在这两个企业节点之间新增表征具有相同邮箱域名的第六类边。当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同,则在这两个企业节点之间新增表征具有相同网址域名的第七类边。当任意两个企业节点的工商登记的电话属性中至少有一个电话相同,这是指去除了区号和分机号之后的电话号码主机相同,则在这两个企业节点之间新增表征具有相同电话的第八类边。对所有企业节点的实体名称属性提取企业简称,当任意两个企业节点的企业简称相同,则在这两个企业节点之间新增表征具有相同企业简称的第九类边。这里给出了基于企业工商信息扩展表征企业关联特征的边的优选实现方式。进一步地,所述步骤S130中,先对任意两个企业节点之间基于企业工商信息中的企业关联特征计算第一疑似度,然后将得到的第一疑似度与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。这里给出了基于企业工商信息判定企业疑似关联关系的优选实现方式。进一步地,所述第一疑似度是将企业工商信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的。这里给出了第一疑似度的一种计算方式。进一步地,所述步骤S130中,两个企业节点之间的第一疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的边所表征的企业工商信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。这里给出了判定企业疑似关联关系的优选实现方式。本申请还提供了一种企业疑似关联关系判定方法,包括如下步骤本文档来自技高网
...

【技术保护点】
1.一种企业疑似关联关系判定方法,其特征是,包括如下步骤:/n步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;/n步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边;/n步骤S130:在知识图谱中,基于企业工商信息判定企业疑似关联关系。/n

【技术特征摘要】
1.一种企业疑似关联关系判定方法,其特征是,包括如下步骤:
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;
步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边;
步骤S130:在知识图谱中,基于企业工商信息判定企业疑似关联关系。


2.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据清洗,再基于清洗后的数据构建知识图谱。


3.根据权利要求2所述的企业疑似关联关系判定方法,其特征是,所述数据清洗包括企业基础属性合法性清洗、股权比例合法性检测清洗、高管数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。


4.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据标准化处理,再基于标准化后的数据构建知识图谱。


5.根据权利要求4所述的企业疑似关联关系判定方法,其特征是,所述数据标准化包括以下操作的一种或多种;其一,将工商登记的地址信息进行分解和标准化;其二,将企业工商登记的邮箱域名和网址域名进行标准化,删除公共域名;其三,将企业登记的电话信息进行标准化。


6.根据权利要求2或4所述的企业疑似关联关系判定方法,其特征是,对企业工商信息中的股权数据和高管数据先进行数据清洗,再进行数据标准化处理,再基于清洗后和标准化后的数据构建知识图谱。


7.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,所述知识图谱中,每一家企业及其直接持股股东、高管人员分别作为图中的每一个节点;直接持股股东节点对企业节点的直接投资关系以第一类边表示;高管人员节点在企业节点的高管任职关系以第二类边表示;同一自然人关系以第三类边表示。


8.根据权利要求7所述的企业疑似关联关系判定方法,其特征是,每个节点包含三个属性:实体ID、实体名称、实体类型;企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息。


9.根据权利要求7所述的企业疑似关联关系判定方法,其特征是,所述边都具有类型属性,以区分不同类型的边。


10.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,所述步骤S120包括以下操作的任意一项或多项;
当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增表征具有相同高管人员的第四类边;
当任意两个企业节点的工商登记地址属性相同或相近,相近是指位于同一个办公楼中,则在这两个企业节点之间新增表征具有共同地址的第五类边;
当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同,则在这两个企业节点之间新增表征具有相同邮箱域名的第六类边;
当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同,则在这两个企业节点之间新增表征具有相同网址域名的第七类边;
当任意两个企业节点的工商登记的电话属性中至少有一个电话相同,这是指去除了区号和分机号之后的电话号码主机相同,则在这两个企业节点之间新增表征具有相同电话的第八类边;
对所有企业节点的实体名称属性提取企业简称,当任意两个企业节点的企业简称相同,则在这两个企业节点之间新增表征具有相同企业简称的第九类边。


11.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,所述步骤S130中,先对任意两个企业节点之间基于企业工商信息中的企业关联特征计算第一疑似度,然后将得到的第一疑似度与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。


12.根据权利要求11所述的企业疑似关联关系判定方法,其特征是,所述第一疑似度是将企业工商信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的。


13.根据权利要求11所述的企业疑似关联关系判定方法,其特征是,所述步骤S130中,两个企业节点之间的第一疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的边所表征的企业工商信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。


14.一种企业疑似关联关系判定方法,其特征是,包括如下步骤:
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;
步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边;
步骤S330:基于企业结构化信息在知识图谱中扩展增加企业节点的属性;
步骤S340:基于企业结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边;
步骤S350:在知识图谱中,基于企业工商信息和企业结构化信息共同判定企业疑似关联关系。


15.根据权利要求14所述的企业疑似关联关系判定方法,其特征是,所述步骤S330中,基于企业的知识产权信息扩展知识图谱中的节点属性;
采集企业的知识产权信息,对于每一条知识产权信息查询其所属的企业名称,然后利用该企业名称在每个企业节点的实体名称属性、企业的曾用名信息属性中进行搜索,找到该条知识产权信息对应的企业节点;为对应的企业节点新增一个知识产权属性,并将该条知识产权信息添加到对应的企业节点的知识产权属性中。


16.根据权利要求14所述的企业疑似关联关系判定方法,其特征是,所述步骤S330中,基于企业员工的名片信息扩展知识图谱中的节点属性;
采集企业员工的名片信息,并将个人隐私信息进行清除,剩余的名片信息就是企业的公开信息;为每张名片信息增加创建时间;为每张名片的公开信息计算hash值,并将具有相同hash值的名片的公开信息聚合到一起,获得企业名片模板信息;企业名片模板信息的创建时间为所有聚合的名片中最早的创建时间;对于每一个企业名片模板信息,利用其企业名称在每个企业节点的实体名称属性、企业的曾用名信息属性、知识产权属性中的商标信息、企业的产品名称信息属性中的一项或多项进行搜索,找到该条企业名片模板信息对应的企业节点;为对应的企业节点新增一个名片模板属性,包括企业名称、地址、邮箱域名、网址域名、企业电话、创建时间。


17.根据权利要求14所述的企业疑似关联关系判定方法,其特征是,所述步骤S340包括以下操作的任意一项或多项;
当任意两个企业节点的知识产权属性中包含至少一个相同的知识产权信息,以知识产权ID为判断依据,则在这两个企业节点之间新增表征具有相同知识产权的第十类边;
当任意两个企业节点的工商登记地址属性相同或相近、或者名片模板属性中包含至少一个相同或相近的地址,相近是指位于同一个办公楼中,则在这两个企业节点之间新增表征具有共同地址的第十一类边;
当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同、或者名片模板属性中包含至少一个相同的邮箱域名,则在这两个企业节点之间新增表征具有相同邮箱域名的第十二类边;
当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同、或者名片模板属性中包含至少一个相同的网址域名,则在这两个企业节点之间新增表征具有相同网址域名的第十三类边;
当任意两个企业节点的工商登记的电话属性中至少有一个电话相同、或者名片模板属性中包含至少一个相同的电话,这是指去除了区号和分机号之后的电话号码主机相同,则在这两个企业节点之间新增表征具有相同电话的第十四类边。


18.根据权利要求14所述的企业疑似关联关系判定方法,其特征是,所述步骤S350中,对任意两个企业节点之间,基于企业工商信息中的企业关联特征计算第一疑似度,基于企业结构化信息中的企业关联特征计算第二疑似度,然后将得到的第一疑似度和第二疑似度综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。


19.根据权利要求18所述的企业疑似关联关系判定方法,其特征是,所述第二疑似度是将企业结构化信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的。


20.根据权利要求18所述的企业疑似关联关系判定方法,其特征是,根据第一疑似度和第二疑似度计算总疑似度;两个企业节点之间的总疑似度大于或等于第一阈...

【专利技术属性】
技术研发人员:丁凯赵欢龙腾陈青山
申请(专利权)人:上海生腾数据科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1