一种基于企业关联关系的人名消歧方法及系统技术方案

技术编号:29873174 阅读:30 留言:0更新日期:2021-08-31 23:48
本申请公开了一种基于企业关联关系的人名消歧方法。构建反映企业关联关系的知识图谱。将知识图谱划分为一个或多个连通子图。根据查询时输入的人名以及企业名,在各连通子图中查找查询输入企业节点;在具有查询输入企业节点的连通子图中生成查询输入个人节点;在该连通子图中,寻找查询输入个人节点的所有同名个人节点,将路径最短的前k个样本输入预定义或已训练好的判别模型,得到唯一候选同名节点对。若判别模型输出的唯一的候选同名节点对的预测值大于某阈值,则判定该候选同名节点对中的两个同名的个人节点为同一自然人。本申请使用多种不同策略方法对目标同名个人节点对进行人名消歧。

【技术实现步骤摘要】
一种基于企业关联关系的人名消歧方法及系统
本申请涉及一种企业知识图谱(knowledgegraph)构建与应用领域,尤其涉及一种企业知识图谱的构建过程中董事、监事、高管、法人代表等同名个人节点的歧义性消除和处理的方法。
技术介绍
人名消歧(personalnamedisambiguation)旨在消除不同环境下人名的歧义性,把相同的人名按照现实世界的不同实体进行分类,从而将信息有效地组织和聚类(cluster)后提供给用户。有效的人名消歧是企业知识图谱构建过程中必不可少的环节,该问题在搜索引擎检索、数据挖掘、人名知识库构建等领域中普遍存在。目前,主要可以使用基于特征的、基于机器学习的、基于社会网络的、基于网络知识资源的等多种人名消歧方法来解决人名歧义的问题。并且,国内外学者提出了许多人名消歧算法,随着数据规模的日趋庞大,以及使用场景的多样性,以上方法都有其各自的特点与不足,并不存在一种可以解决各种人名消歧问题的普适算法。随着海量数据的增长,计算能力以及基础算法的迭代提升,基于数据驱动的机器学习预测模型系统受到越来越广泛的应用,解决了越来越多的实际问题。并且,图卷积网络(graphconvolutionalnetwork,GCN)是传统卷积神经网络(convolutionalneuralnetwork,CNN)在图(graph)结构数据上的一个变体,可以直接应用于图结构数据,可以很好地对局部图结构与节点特征进行编码,被广泛应用于节点分类、链接预测、图嵌入表示等任务中,为处理大型图结构数据提供一种有效手段
技术实现思路
本申请所要解决的技术问题是解决企业知识图谱中的多个同名节点的歧义性问题,合并优化同名个人节点,提升搜索结果的准确性,提升查询业务匹配的准确性。为解决上述技术问题,本申请提供了一种基于企业关联关系的人名消歧方法,包括如下步骤。步骤S10:构建反映企业关联关系的知识图谱;所构建的知识图谱中,节点包括企业节点和个人节点,边包括企业节点与企业节点之间的边、企业节点与个人节点之间的边。步骤S20:将知识图谱划分为一个或多个连通子图。步骤S30:根据查询时输入的人名以及企业名,在各连通子图中查找与该企业名对应的企业节点,称为查询输入企业节点;在具有查询输入企业节点的连通子图中生成查询时输入的人名的个人节点,称为查询输入个人节点;查询输入个人节点与查询输入企业节点具有唯一对应关系;在该连通子图中,寻找查询输入个人节点的所有同名个人节点,将查询输入个人节点与找到的每一个同名个人节点组成同名个人节点对,每个同名个人节点对作为单个样本,将路径最短的前k个样本输入预定义或已训练好的判别模型,判别模型输出的预测值最高的同名个人节点对作为唯一候选同名节点对。步骤S40:若判别模型输出的唯一的候选同名节点对的预测值大于某阈值,则判定该候选同名节点对中的两个同名的个人节点为同一自然人;否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。本申请所依据的原理是:当两个个人之间的关联企业的关系越多、关联关系越重要、关系路径距离越近,则这两个个人为同一个自然人的可能性越高。其重点在于利用已有企业节点与企业节点的关联关系,以及企业节点与个人节点的唯一对应关系合理构建反映企业关联关系的知识图谱,并通过企业关联关系知识图谱,使用多种不同策略方法对同名个人节点对进行判决,生成基于数据驱动的人名消歧系统。进一步地,所述步骤S10进一步包括如下步骤。步骤S12:抽取用于构建知识图谱的数据,包括抽取企业关联图谱数据、抽取历史标记数据;所述企业关联图谱数据包括企业的名称、个人的姓名、企业和企业的关系数据、企业和个人的关系数据,作为知识图谱中的节点和边的属性;所述历史标记数据是指当前已通过实名认证的个人的带有个人标识的同名数据集,用作机器学习模型的监督训练评估的标记数据。步骤S14:对数据进行预处理,包括数据清洗、标记数据集划分、自定义图谱关系权重。步骤S16:部署构建反映企业关联关系的知识图谱。这是一种优选的具体实现方式。进一步地,在步骤S20之后、步骤S30之前还包括步骤S24。步骤S24:采用谱聚类的算法对部分或全部的连通子图再次进行划分,从而使得再次划分后的子图更小。这是一个可选步骤,可以进一步减小图计算规模和存储空间,提升计算效率,降低硬件资源需求。进一步地,所述步骤S30中,首先在具有查询输入企业节点的连通子图中,寻找查询输入个人节点的所有同名的个人节点;随后计算所有的同名个人节点与查询输入企业节点的最短路径,从所有的同名个人节点中选出“最短路径”最短的前k个同名个人节点与查询输入个人节点构成k个同名个人节点对,这k个同名个人节点对构成候选同名节点对集;通过以下三种判别模型的任意一种从候选同名节点对集中计算得到唯一候选同名节点对——基于人工规则的相似度计算模型、基于二分类器的判别模型、基于卷积图神经网络的端到端模型;对于基于人工规则的相似度计算模型,预测值是相似度计算结果;对于基于逐对PairWise二分类器的判别模型或基于卷积图神经网络的端到端模型,预测值是模型输出的概率值。基于人工规则的相似度计算模型利用专家经验和数据分析结果,直接量化定义同名个人节点对的相似度计算公式。基于二分类器的判别模型挖掘同名个人节点对知识图谱路径与属性特征,如最短路径集合,并使用常用机器学习算法构建分类器模型。基于图卷积网络的端到端模型直接对量化好的企业关联图谱构建图卷积网络模型,直接进行端到端的训练模型。进一步地,所述步骤S30中,所述基于人工规则的相似度计算模型中,先进行最短路径计算以找到候选同名节点对集;在候选同名节点对集的k个同名个人节点对中,每一个同名个人节点对由查询输入个人节点和通过计算最短路径找到的节点二组成,节点二有k个;与每个节点二具有最短路径的企业节点作为该节点二唯一对应的企业节点;将查询输入企业节点与“每个节点二唯一对应的企业节点”的企业相似度,作为候选同名节点对集的k个同名个人节点对中的每一个同名个人节点对中的两个个人节点的相似度;将两个个人节点的相似度最高的那一对同名个人节点对作为唯一的候选同名节点对。进一步地,企业的相似度计算公式如下所示;其中,Se表示两个企业节点的相似度,ni为两个企业节点同时连接的同名个人节点的数目,N为两个企业节点所连接的个人节点的总数,k为相同名字的自然人的数目,si和e分别表示两个企业节点的地址、电话、邮件字段特征的对应权重和取值。进一步地,所述基于二分类器的判别模型主要包括最短路径计算、特征提取、模型训练、模型预测的具体实现模块;所述最短路径计算模块实现了知识图谱中的企业节点到对应同名个人节点的最短路径计算;所述特征提取模块用于提取最短路径的路径数值化特征作为对应企业节点和个人节点的特征表示向量;所述模型训练模块主要完成机器学习算法模型的训练阶段,并将训练好的最终模型用作最终判定;所述模型预测模块用于完成机器学习算法模型的测试阶段。这是一种优选的具体实现方式。进一步地,所述最短路径计算通过使用随机抽取同名个本文档来自技高网
...

【技术保护点】
1.一种基于企业关联关系的人名消歧方法,其特征是,包括如下步骤:/n步骤S10:构建反映企业关联关系的知识图谱;所构建的知识图谱中,节点包括企业节点和个人节点,边包括企业节点与企业节点之间的边、企业节点与个人节点之间的边;/n步骤S20:将知识图谱划分为一个或多个连通子图;/n步骤S30:根据查询时输入的人名以及企业名,在各连通子图中查找与该企业名对应的企业节点,称为查询输入企业节点;在具有查询输入企业节点的连通子图中生成查询时输入的人名的个人节点,称为查询输入个人节点;查询输入个人节点与查询输入企业节点具有唯一对应关系;在该连通子图中,寻找查询输入个人节点的所有同名个人节点,将查询输入个人节点与找到的每一个同名个人节点组成同名个人节点对,每个同名个人节点对作为单个样本,将路径最短的前k个样本输入预定义或已训练好的判别模型,判别模型输出的预测值最高的同名个人节点对作为唯一候选同名节点对;/n步骤S40:若判别模型输出的唯一的候选同名节点对的预测值大于某阈值,则判定该候选同名节点对中的两个同名的个人节点为同一自然人;否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。/n

【技术特征摘要】
1.一种基于企业关联关系的人名消歧方法,其特征是,包括如下步骤:
步骤S10:构建反映企业关联关系的知识图谱;所构建的知识图谱中,节点包括企业节点和个人节点,边包括企业节点与企业节点之间的边、企业节点与个人节点之间的边;
步骤S20:将知识图谱划分为一个或多个连通子图;
步骤S30:根据查询时输入的人名以及企业名,在各连通子图中查找与该企业名对应的企业节点,称为查询输入企业节点;在具有查询输入企业节点的连通子图中生成查询时输入的人名的个人节点,称为查询输入个人节点;查询输入个人节点与查询输入企业节点具有唯一对应关系;在该连通子图中,寻找查询输入个人节点的所有同名个人节点,将查询输入个人节点与找到的每一个同名个人节点组成同名个人节点对,每个同名个人节点对作为单个样本,将路径最短的前k个样本输入预定义或已训练好的判别模型,判别模型输出的预测值最高的同名个人节点对作为唯一候选同名节点对;
步骤S40:若判别模型输出的唯一的候选同名节点对的预测值大于某阈值,则判定该候选同名节点对中的两个同名的个人节点为同一自然人;否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。


2.根据权利要求1所述的基于企业关联关系的人名消歧方法,其特征是,所述步骤S10进一步包括如下步骤:
步骤S12:抽取用于构建知识图谱的数据,包括抽取企业关联图谱数据、抽取历史标记数据;所述企业关联图谱数据包括企业的名称、个人的姓名、企业和企业的关系数据、企业和个人的关系数据,作为知识图谱中的节点和边的属性;所述历史标记数据是指当前已通过实名认证的个人的带有个人标识的同名数据集,用作机器学习模型的监督训练评估的标记数据;
步骤S14:对数据进行预处理,包括数据清洗、标记数据集划分、自定义图谱关系权重;
步骤S16:部署构建反映企业关联关系的知识图谱。


3.根据权利要求1所述的基于企业关联关系的人名消歧方法,其特征是,在步骤S20之后、步骤S30之前还包括步骤S24;
步骤S24:采用谱聚类的算法对部分或全部的连通子图再次进行划分,从而使得再次划分后的子图更小。


4.根据权利要求1所述的基于企业关联关系的人名消歧方法,其特征是,所述步骤S30中,首先在具有查询输入企业节点的连通子图中,寻找查询输入个人节点的所有同名的个人节点;随后计算所有的同名个人节点与查询输入企业节点的最短路径,从所有的同名个人节点中选出“最短路径”最短的前k个同名个人节点与查询输入个人节点构成k个同名个人节点对,这k个同名个人节点对构成候选同名节点对集;通过以下三种判别模型的任意一种从候选同名节点对集中计算得到唯一候选同名节点对——基于人工规则的相似度计算模型、基于二分类器的判别模型、基于卷积图神经网络的端到端模型;对于基于人工规则的相似度计算模型,预测值是相似度计算结果;对于基于二分类器的判别模型或基于卷积图神经网络的端到端模型,预测值是模型输出的概率值。


5.根据权利要求4所述的基于企业关联关系的人名消歧方法,其特征是,所述步骤S30中,所述基于人工规则的相似度计算模型中,先进行最短路径计算以找到候选同名节点对集;在候选同名节点对集的k个同名个人节点对中,每一个同名个人节点对由查询输入个人节点和通过计算最短路径找到的节点二组成,节点二有k个;与每个节点二具有最短路径的企业节点作为该节点二唯一对应的企业节点;将查询输入企业节点与“每个节点二唯一对应的企业节点”的企业相似度,作为候选同名节点对集的k个同名个人节点对中的每一个同名个人节点对中的两个个人节点的相似度;将两个个人节点的相似度最高的那一对同名个人节点对作为唯一的候选同名节点对。


6.根据权利要求5所述的基于企业关联关系的人名消歧方法,其特征是,企业的相似度计算公式如下所示;



其中,Se表示两个...

【专利技术属性】
技术研发人员:丁凯尹杰张彬郭丰俊龙腾镇立新
申请(专利权)人:上海生腾数据科技有限公司上海合合信息科技股份有限公司上海临冠数据科技有限公司上海盈五蓄数据科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1