一种企业关联关系构建方法及系统技术方案

技术编号:23315142 阅读:18 留言:0更新日期:2020-02-11 17:48
本申请公开了一种企业关联关系构建方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S170:基于时效信息对知识图谱进行扩展和更新。本申请采用图数据库构建和存储知识图谱,基于企业工商信息、企业结构化信息和/或企业非结构化信息,在知识图谱中通过节点属性、边的建立与属性来表征企业的关联特征,并广泛地具有时效信息。

A construction method and system of enterprise relationship

【技术实现步骤摘要】
一种企业关联关系构建方法及系统
本申请涉及一种基于图计算(GraphComputing)的数据存储与运算方法,特别是涉及一种基于图计算的对企业相关数据进行存储和构建的方法。
技术介绍
企业关联关系是指企业的控股股东、实际控制人、董事、监事等高管人员与其直接或者间接控制的企业之间的关系,以及可能导致公司利益转移的其他关系。当今社会,企业之间的关联关系日趋错综复杂,银行及相关单位因关联企业识别不充分所造成的各种风险乃至实际损失屡见不鲜。有效识别关联企业成为防止集团客户多头授信、过度授信、关联担保的关键要素,对保证银行信贷资产安全十分及时与必要。因此,通过合法合规的方式从各种不同来源采集企业和个人客户的数据进行融合、分析和挖掘解析出企业之间的关联关系,有利于实现金融风险防控、金融信息统计与预测等功能。图论(graphtheory)是数学的一个分支,它以图(graph)为研究对象。图论中的图是由若干给定的节点(也称顶点、点、vertice、node或point)及连接节点的边(也称线、edge、arc或line)所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用节点代表事物,用边表示两个事物间具有某种关系,用节点和/或边的属性或权重来描述事物和/或关系的特性。知识图谱(KnowledgeGraph)就是图计算的一种应用,它由若干节点和边组成。节点表示知识,节点之间的边表示知识之间的关系。如果两个节点之间存在关系,它们就会被一条边连接在一起。知识图谱通常使用图数据库(GraphDatabase)来进行存储,常用的有Neo4j等。目前,基于知识图谱的应用主要体现在信息检索上,用知识图谱的相关技术去挖掘企业信息还相对匮乏。
技术实现思路
本申请所要解决的技术问题是提供一种基于知识图谱的企业关联关系的构建方法、以及相应的构建系统。本申请以企业工商信息为基础,同时可选地结合涉及企业的结构化和非结构化数据,对企业各个维度的信息进行挖掘分析和构建。本申请可以减少对计算资源的要求,同时显著地提高企业信息的准确性并大幅度地提升数据维度。为解决上述技术问题,本申请公开了一种企业关联关系构建方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S130:基于企业结构化信息在知识图谱中扩展增加企业节点的属性。步骤S140:基于企业结构化信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S150:从企业非结构化信息中抽取出结构化的三元组信息。步骤S160:基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。步骤S170:基于时效信息对知识图谱进行扩展和更新。上述企业关联关系构建方法是本申请的实施例一,基于企业工商信息构建企业关联关系。进一步地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据清洗,再基于清洗后的数据构建知识图谱。这样可以避免无效数据、错误数据等对构建知识图谱带来额外的负担,也能避免对后续运算带来干扰。进一步地,所述数据清洗包括企业基础属性合法性清洗、股权比例合法性检测清洗、高管数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。这是数据清洗的一种优选实现方式。进一步地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据标准化处理,再基于标准化后的数据构建知识图谱。这有利于后续进行的图运算,避免由于数据不标准而引起错误或偏差。进一步地,所述数据标准化包括以下操作的一种或多种;其一,将工商登记的地址信息进行分解和标准化;其二,将企业工商登记的邮箱域名和网址域名进行标准化,删除公共域名;其三,将企业登记的电话信息进行标准化。这是数据标准化的一种优选实现方式。进一步地,对企业工商信息中的股权数据和高管数据先进行数据清洗,再进行数据标准化处理,再基于清洗后和标准化后的数据构建知识图谱。这是一种优选的顺序安排。进一步地,所述知识图谱中,每一家企业及其直接持股股东、高管人员分别作为图中的每一个节点;直接持股股东节点对企业节点的直接投资关系以第一类边表示;高管人员节点在企业节点的高管任职关系以第二类边表示;同一自然人关系以第三类边表示。这是构建知识图谱的一种优选实现方式。进一步地,每个节点包含三个属性:实体ID、实体名称、实体类型;企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息。节点的属性在后续的图计算中会被用到。进一步地,所述边都具有类型属性,以区分不同类型的边。这用来区分边的不同类型。进一步地,所述步骤S120中,当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增表征具有相同高管人员的第四类边。这里给出了基于企业工商信息扩展表征企业关联特征的边的优选实现方式。进一步地,所述步骤S170中,更新方式包括实时更新、增量更新、全量更新的一种或多种的结合。这里给出了常见的几种知识图谱更新方式。进一步地,针对企业工商数据采用实时更新方式。这是一种优选的实现方式。进一步地,针对企业结构化信息、企业非结构化信息采用增量更新方式,包括更新知识图谱中的表征企业具有关联特征的边的连接关系与这些边的属性;所述边的属性包括时效属性。这是一种优选的实现方式,并特别强调了时效信息也在知识图谱中被更新。本申请还公开了一种企业关联关系构建方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S330:基于企业结构化信息在知识图谱中扩展增加企业节点的属性。步骤S340:基于企业结构化信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S170:基于时效信息对知识图谱进行扩展和更新。上述企业关联关系构建方法是本申请的实施例二,基于企业工商信息和企业结构化信息构建企业关联关系。进一步地,所述步骤S330中,基于企业的知识产权信息扩展知识图谱中的节点属性。采集企业的知识产权信息,为每一条知识产权信息增加三个时效性信息:申请时间、授权时间和失效时间;对于每一条知识产权信息,查询其所属的企业名称,然后利用该企业名称在每个企业节点的实体名称属性、企业的曾用名信息属性中进行搜索,找到该条知识产权信息对应的企业节点,为对应的企业节点新增一个知识产权属性,并将该条知识产权信息添加到对应的企业节点的知识产权属性中;知识产权属性包括知识产权类型、申请时间、授权时间和失效时间。这里给出了基于企业结构化信息在知识图谱本文档来自技高网
...

【技术保护点】
1.一种企业关联关系构建方法,其特征是,包括如下步骤:/n步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;/n步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边;/n步骤S170:基于时效信息对知识图谱进行扩展和更新。/n

【技术特征摘要】
1.一种企业关联关系构建方法,其特征是,包括如下步骤:
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;
步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边;
步骤S170:基于时效信息对知识图谱进行扩展和更新。


2.根据权利要求1所述的企业关联关系构建方法,其特征是,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据清洗,再基于清洗后的数据构建知识图谱。


3.根据权利要求2所述的企业关联关系构建方法,其特征是,所述数据清洗包括企业基础属性合法性清洗、股权比例合法性检测清洗、高管数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。


4.根据权利要求1所述的企业关联关系构建方法,其特征是,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据标准化处理,再基于标准化后的数据构建知识图谱。


5.根据权利要求4所述的企业关联关系构建方法,其特征是,所述数据标准化包括以下操作的一种或多种;其一,将工商登记的地址信息进行分解和标准化;其二,将企业工商登记的邮箱域名和网址域名进行标准化,删除公共域名;其三,将企业登记的电话信息进行标准化。


6.根据权利要求2或4所述的企业关联关系构建方法,其特征是,对企业工商信息中的股权数据和高管数据先进行数据清洗,再进行数据标准化处理,再基于清洗后和标准化后的数据构建知识图谱。


7.根据权利要求1所述的企业关联关系构建方法,其特征是,所述知识图谱中,每一家企业及其直接持股股东、高管人员分别作为图中的每一个节点;直接持股股东节点对企业节点的直接投资关系以第一类边表示;高管人员节点在企业节点的高管任职关系以第二类边表示;同一自然人关系以第三类边表示。


8.根据权利要求7所述的企业关联关系构建方法,其特征是,每个节点包含三个属性:实体ID、实体名称、实体类型;企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息。


9.根据权利要求7所述的企业关联关系构建方法,其特征是,所述边都具有类型属性,以区分不同类型的边。


10.根据权利要求1所述的企业关联关系构建方法,其特征是,所述步骤S120中,当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增表征具有相同高管人员的第四类边。


11.根据权利要求1所述的企业关联关系构建方法,其特征是,所述步骤S170中,更新方式包括实时更新、增量更新、全量更新的一种或多种的结合。


12.根据权利要求11所述的企业关联关系构建方法,其特征是,针对企业工商数据采用实时更新方式。


13.根据权利要求11所述的企业关联关系构建方法,其特征是,针对企业结构化信息、企业非结构化信息采用增量更新方式,包括更新知识图谱中的表征企业具有关联特征的边的连接关系与这些边的属性;所述边的属性包括时效属性。


14.一种企业关联关系构建方法,其特征是,包括如下步骤:
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;
步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边;
步骤S330:基于企业结构化信息在知识图谱中扩展增加企业节点的属性;
步骤S340:基于企业结构化信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边;
步骤S170:基于时效信息对知识图谱进行扩展和更新。


15.根据权利要求14所述的企业关联关系构建方法,其特征是,所述步骤S330中,基于企业的知识产权信息扩展知识图谱中的节点属性;
采集企业的知识产权信息,为每一条知识产权信息增加三个时效性信息:申请时间、授权时间和失效时间;对于每一条知识产权信息,查询其所属的企业名称,然后利用该企业名称在每个企业节点的实体名称属性、企业的曾用名信息属性中进行搜索,找到该条知识产权信息对应的企业节点,为对应的企业节点新增一个知识产权属性,并将该条知识产权信息添加到对应的企业节点的知识产权属性中;知识产权属性包括知识产权类型、申请时间、授权时间和失效时间。


16.根据权利要求14所述的企业关联关系构建方法,其特征是,所述步骤S330中,基于企业员工的名片信息扩展知识图谱中的节点属性;
采集企业员工的名片信息,并将个人隐私信息进行清除,剩余的名片信息就是企业的公开信息;为每张名片信息增加创建时间;为每张名片的公开信息计算hash值,并将具有相同hash值的名片的公开信息聚合到一起,获得企业名片模板信息;企业名片模板信息的创建时间为所有聚合的名片中最早的创建时间;对于每一个企业名片模板信息,利用其企业名称在每个企业节点的实体名称属性、企业的曾用名信息属性、知识产权属性中的商标信息、企业的产品名称信息属性中的一项或多项进行搜索,找到该条企业名片模板信息对应的企业节点;为对应的企业节点新增一个名片模板属性,包括企业名称、地址、邮箱域名、网址域名、企业电话、创建时间。


17.根据权利要求14所述的企业关联关系构建方法,其特征是,所述步骤S340包括以下操作的任意一项或多项;
当任意两个企业节点的知识产权属性中包含至少一个相同的知识产权信息,以知识产权ID为判断依据,则在这两个企业节点之间新增表征具有相同知识产权的第五类边;
当任意两个企业节点的工商登记地址属性和名片模板属性的集合之间包含至少一个相同或相近的地址,相近是指位于同一个办公楼中,则在这两个企业节点之间新增表征具有共同地址的第六类边;
当任意两个企业节点的工商登记的邮箱域名属性和名片模板属性的集合之间包含至少一个相同的邮箱域名,则在这两个企业节点之间新增表征具有相同邮箱域名的第七类边;第七类边具有时效属性;
当任意两个企业节点的工商登记的网址域名属性和名片模板属性的集合之间包含至少一个相同的网址域名,则在这两个企业节点之间新增表征具有相同网址域名的第八类边;第八类边具有时效属性;
当任意两个企业节点的工商登记的电话属性和名片模板属性的集合之间包含至少一个相同的电话,这是指去除了区号和分机号之后的电话号码主机相同,则在这两个企业节点之间新增表征具有相同电话的第九类边。


18.根据权利要求17所述的企业关联关系构建方法,其特征是,第五类边至第九类边均具有时效属性;
被任意第五类边所连接的两个企业节点的知识产权属性中,所具有的相同知识产权信息中最早的申请时间、最早的授权时间、最晚的失效时间作为第五类边的时效属性;
被任意第六类边所连接的两个企业节点,如果名片模板属性中存在相同或相近的地址信息,则将这两个企业节点的名片模板属性中的最晚创建时间作为第六类边的时效属性;
被任意第七类边所连接的两个企业节点,如果名片模板属性中存在相同的邮箱域名,则将这两个企业...

【专利技术属性】
技术研发人员:丁凯龙腾陈青山
申请(专利权)人:上海生腾数据科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1