一种基于企业关联关系的人名消歧方法及系统技术方案

技术编号：29873174 阅读：30 留言：0更新日期：2021-08-31 23:48

本申请公开了一种基于企业关联关系的人名消歧方法。构建反映企业关联关系的知识图谱。将知识图谱划分为一个或多个连通子图。根据查询时输入的人名以及企业名，在各连通子图中查找查询输入企业节点；在具有查询输入企业节点的连通子图中生成查询输入个人节点；在该连通子图中，寻找查询输入个人节点的所有同名个人节点，将路径最短的前k个样本输入预定义或已训练好的判别模型，得到唯一候选同名节点对。若判别模型输出的唯一的候选同名节点对的预测值大于某阈值，则判定该候选同名节点对中的两个同名的个人节点为同一自然人。本申请使用多种不同策略方法对目标同名个人节点对进行人名消歧。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于企业关联关系的人名消歧方法及系统
本申请涉及一种企业知识图谱(knowledgegraph)构建与应用领域，尤其涉及一种企业知识图谱的构建过程中董事、监事、高管、法人代表等同名个人节点的歧义性消除和处理的方法。
技术介绍
人名消歧(personalnamedisambiguation)旨在消除不同环境下人名的歧义性，把相同的人名按照现实世界的不同实体进行分类，从而将信息有效地组织和聚类(cluster)后提供给用户。有效的人名消歧是企业知识图谱构建过程中必不可少的环节，该问题在搜索引擎检索、数据挖掘、人名知识库构建等领域中普遍存在。目前，主要可以使用基于特征的、基于机器学习的、基于社会网络的、基于网络知识资源的等多种人名消歧方法来解决人名歧义的问题。并且，国内外学者提出了许多人名消歧算法，随着数据规模的日趋庞大，以及使用场景的多样性，以上方法都有其各自的特点与不足，并不存在一种可以解决各种人名消歧问题的普适算法。随着海量数据的增长，计算能力以及基础算法的迭代提升，基于数据驱动的机器学习预测模型系统受到越来越广泛的应用，解决了越来越多的实际问题。并且，图卷积网络(graphconvolutionalnetwork，GCN)是传统卷积神经网络(convolutionalneuralnetwork，CNN)在图(graph)结构数据上的一个变体，可以直接应用于图结构数据，可以很好地对局部图结构与节点特征进行编码，被广泛应用于节点分类、链接预测、图嵌入表示等任务中，为处理大型图结构数据提供一种有效手段...

【技术保护点】
1.一种基于企业关联关系的人名消歧方法，其特征是，包括如下步骤：/n步骤S10：构建反映企业关联关系的知识图谱；所构建的知识图谱中，节点包括企业节点和个人节点，边包括企业节点与企业节点之间的边、企业节点与个人节点之间的边；/n步骤S20：将知识图谱划分为一个或多个连通子图；/n步骤S30：根据查询时输入的人名以及企业名，在各连通子图中查找与该企业名对应的企业节点，称为查询输入企业节点；在具有查询输入企业节点的连通子图中生成查询时输入的人名的个人节点，称为查询输入个人节点；查询输入个人节点与查询输入企业节点具有唯一对应关系；在该连通子图中，寻找查询输入个人节点的所有同名个人节点，将查询输入个人节点与找到的每一个同名个人节点组成同名个人节点对，每个同名个人节点对作为单个样本，将路径最短的前k个样本输入预定义或已训练好的判别模型，判别模型输出的预测值最高的同名个人节点对作为唯一候选同名节点对；/n步骤S40：若判别模型输出的唯一的候选同名节点对的预测值大于某阈值，则判定该候选同名节点对中的两个同名的个人节点为同一自然人；否则，判定该候选同名节点对中的两个同名的个人节点不是同一自然人。/n

【技术特征摘要】
1.一种基于企业关联关系的人名消歧方法，其特征是，包括如下步骤：
步骤S10：构建反映企业关联关系的知识图谱；所构建的知识图谱中，节点包括企业节点和个人节点，边包括企业节点与企业节点之间的边、企业节点与个人节点之间的边；
步骤S20：将知识图谱划分为一个或多个连通子图；
步骤S30：根据查询时输入的人名以及企业名，在各连通子图中查找与该企业名对应的企业节点，称为查询输入企业节点；在具有查询输入企业节点的连通子图中生成查询时输入的人名的个人节点，称为查询输入个人节点；查询输入个人节点与查询输入企业节点具有唯一对应关系；在该连通子图中，寻找查询输入个人节点的所有同名个人节点，将查询输入个人节点与找到的每一个同名个人节点组成同名个人节点对，每个同名个人节点对作为单个样本，将路径最短的前k个样本输入预定义或已训练好的判别模型，判别模型输出的预测值最高的同名个人节点对作为唯一候选同名节点对；
步骤S40：若判别模型输出的唯一的候选同名节点对的预测值大于某阈值，则判定该候选同名节点对中的两个同名的个人节点为同一自然人；否则，判定该候选同名节点对中的两个同名的个人节点不是同一自然人。

2.根据权利要求1所述的基于企业关联关系的人名消歧方法，其特征是，所述步骤S10进一步包括如下步骤：
步骤S12：抽取用于构建知识图谱的数据，包括抽取企业关联图谱数据、抽取历史标记数据；所述企业关联图谱数据包括企业的名称、个人的姓名、企业和企业的关系数据、企业和个人的关系数据，作为知识图谱中的节点和边的属性；所述历史标记数据是指当前已通过实名认证的个人的带有个人标识的同名数据集，用作机器学习模型的监督训练评估的标记数据；
步骤S14：对数据进行预处理，包括数据清洗、标记数据集划分、自定义图谱关系权重；
步骤S16：部署构建反映企业关联关系的知识图谱。

3.根据权利要求1所述的基于企业关联关系的人名消歧方法，其特征是，在步骤S20之后、步骤S30之前还包括步骤S24；
步骤S24：采用谱聚类的算法对部分或全部的连通子图再次进行划分，从而使得再次划分后的子图更小。

4.根据权利要求1所述的基于企业关联关系的人名消歧方法，其特征是，所述步骤S30中，首先在具有查询输入企业节点的连通子图中，寻找查询输入个人节点的所有同名的个人节点；随后计算所有的同名个人节点与查询输入企业节点的最短路径，从所有的同名个人节点中选出“最短路径”最短的前k个同名个人节点与查询输入个人节点构成k个同名个人节点对，这k个同名个人节点对构成候选同名节点对集；通过以下三种判别模型的任意一种从候选同名节点对集中计算得到唯一候选同名节点对——基于人工规则的相似度计算模型、基于二分类器的判别模型、基于卷积图神经网络的端到端模型；对于基于人工规则的相似度计算模型，预测值是相似度计算结果；对于基于二分类器的判别模型或基于卷积图神经网络的端到端模型，预测值是模型输出的概率值。

5.根据权利要求4所述的基于企业关联关系的人名消歧方法，其特征是，所述步骤S30中，所述基于人工规则的相似度计算模型中，先进行最短路径计算以找到候选同名节点对集；在候选同名节点对集的k个同名个人节点对中，每一个同名个人节点对由查询输入个人节点和通过计算最短路径找到的节点二组成，节点二有k个；与每个节点二具有最短路径的企业节点作为该节点二唯一对应的企业节点；将查询输入企业节点与“每个节点二唯一对应的企业节点”的企业相似度，作为候选同名节点对集的k个同名个人节点对中的每一个同名个人节点对中的两个个人节点的相似度；将两个个人节点的相似度最高的那一对同名个人节点对作为唯一的候选同名节点对。

6.根据权利要求5所述的基于企业关联关系的人名消歧方法，其特征是，企业的相似度计算公式如下所示；

其中，Se表示两个...

【专利技术属性】
技术研发人员：丁凯，尹杰，张彬，郭丰俊，龙腾，镇立新，
申请(专利权)人：上海生腾数据科技有限公司，上海合合信息科技股份有限公司，上海临冠数据科技有限公司，上海盈五蓄数据科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人