一种实体的链接方法、装置和存储介质制造方法及图纸

技术编号:35676554 阅读:11 留言:0更新日期:2022-11-23 14:15
本发明专利技术涉及一种实体的链接方法、装置和存储介质。该方法包括:S1、输入数据,所述数据包括文档、文档中的提及和提及对应的第一候选实体集合;S2、获取每个所述提及与其对应的所述第一候选实体集合中的候选实体的第一链接分数;每个所述提及从其对应的所述第一候选实体集合中选取第一链接分数最高的实体作为链接实体;所述第一候选实体集合中包括多个候选实体;S3、检测步骤S2所述提及选取的所述链接实体是否正确,若正确将所述链接实体添加到证据集合中;S4、若不正确,纠正所述提及选取的所述链接实体。本发明专利技术还包括一种实体的链接装置和存储介质。本发明专利技术提出的方法能够对潜在链接错误的提及进行纠正。误的提及进行纠正。

【技术实现步骤摘要】
一种实体的链接方法、装置和存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种实体的链接方法、装置和存储介质。

技术介绍

[0002]知识图谱是由节点和边构成的巨型语义网,其中节点表示物理世界中的概念和实体,边表示节点之间的拓扑链接和语义关系。近年来,知识图谱作为智能化应用的基础关键技术已经成为各界研究者关注的焦点。知识图谱能够为智能搜索、问答、推荐等系统提供知识支撑。然而,现实世界中知识是不断变化的,人们对世界的描述也在不断更新和修正。因此,为了更好地满足系统应用的需求,必须不断地对知识图谱进行知识扩充。早期的知识图谱通常依赖人工构建和扩充,这种方式不仅效率低而且成本极高。因此,知识图谱的自动扩充方法便具有极高的研究与应用价值。
[0003]文本中蕴含的知识是无穷无尽的,借助于实体链接的方法,将文本中带有歧义的实体提及链接到知识图谱中具有明确意义的实体上,可以实现大规模的知识图谱扩充。已有工作表明,将实体链接过程看作是序列决策的过程可以高效地完成实体链接。该类方法的核心是利用先前已决策的实体信息辅助后续的链接决策。
[0004]然而基于单向序列决策的实体链接方法存在全局信息利用不充分和潜在错误链接不能被纠正的问题。

技术实现思路

[0005]鉴于此,本专利技术受人类在做完形填空时的行为启发,提出了一种带有检查与纠正功能的双向实体链接方法。该方法利用检查模块核验当前链接的实体是否正确。若正确,则作为证据参与下一个提及的决策;若不正确,则纠正该提及,还可以进一步重新进行决策。同时,重复上述检查和纠正步骤进行二次链接的策略可以有效解决信息利用不充分的问题。实验表明,本专利技术能够充分合理地利用全局信息,显著提升实体链接的性能。
[0006]本专利技术提出一种实体的链接方法,包括以下步骤:S1、输入数据,所述数据包括文档、文档中的提及和提及对应的第一候选实体集合;S2、获取每个所述提及与其对应的所述第一候选实体集合中的候选实体的第一链接分数,所述第一链接分数越高,所述候选实体与所述提及的相似度越高;每个所述提及从其对应的所述第一候选实体集合中选取第一链接分数最高的实体作为链接实体;所述第一候选实体集合中包括多个候选实体;S3、检测步骤S2所述提及选取的所述链接实体是否正确,若正确将所述链接实体添加到证据集合中;S4、若不正确,纠正所述提及选取的所述链接实体。
[0007]进一步地,在步骤S2中,每个所述提及从其对应的所述第一候选实体集合中选取
最高相似度的实体作为链接实体包括:S21、获取所述候选实体的先验分布;S22、利用所述提及的上下文信息获得所述提及的表示,计算候选实体的表示与所述提及的表示的相似度;S23、计算所述提及的类型与所述候选实体的类型相似度;S24、聚合链接实体在知识图谱中的邻域实体,得到邻域实体表示,计算所述邻域实体与所述候选实体的相似度;S25、利用注意力机制聚合证据集合中的实体的信息,得到证据集合中的实体的表示,计算链接实体与候选实体的相似度;S26、聚合、、、和,得到所述候选实体最终的第一链接分数,第一链接分数最高的所述候选实体作为链接实体。
[0008]进一步地,在步骤S3中,所述检测步骤S2所述提及选取的所述链接实体是否正确包括:S31、确定所述链接实体的类别空间,所述类别空间包括:正确、不正确和不确定;S32、利用分类函数和证据集合中的实体判断当前链接实体的类别;S33、选择具有最大概率的类别作为链接实体的类别。
[0009]进一步地,在步骤S33之后还包括:步骤S34、若链接实体的类别是正确,则将该实体添加到证据集合中。
[0010]进一步地,在步骤S4中,所述若不正确,纠正所述提及选取的所述链接实体包括:S41、若所述连接实体的类别不正确,则按照步骤S2的方法获取所述链接实体的类别为不正确所对应的提及与第一候选实体集合中候选实体的第二链接分数;S42、聚合步骤S2的候选实体的所述第一链接分数和所述第二链接分数,得到单向决策最终的候选实体的第三链接分数,选取第三链接分数最高的实体作为链接实体。
[0011]进一步地,在步骤S4之后还包括:S5、根据所述第三链接分数,对每个提及的不同候选实体进行排序,计算排名第一和排名第二的候选实体的第三链接分数差值,按照该差值重新对序列中的提及进行排序,得到第二次决策的提及序列;S6、利用双向LSTM网络对第一次决策得到的所述证据集合中的实体进行编码,得到历史向量;S7、将所述历史向量或者将第一次决策得到的所述证据集合中的实体作为证据集合;S8、获取所述第二次决策的提及序列的每个所述提及与其对应的所述第一候选实体集合中的候选实体的第四链接分数;S9、聚合所述第三链接分数和所述第四链接分数得到第五链接分数,选取最高的第五链接分数的实体作为链接实体。
[0012]进一步地,在步骤S21中,所述获取所述候选实体的先验分布包括:,其中锚
链接指的是维基百科描述页中的超链接。
[0013]进一步地,在步骤S21中,所述相似度的计算公式如下:其中,表示候选实体,表示对角矩阵,T表示置换,为提及的上下文表示向量。
[0014]此外,本专利技术还提出一种实体的链接装置,包括:数据模块,用于输入数据,所述数据包括文档、文档中的提及和提及对应的第一候选实体集合;实体选择模块,用于获取每个所述提及与其对应的所述第一候选实体集合中的候选实体的第一链接分数,所述第一链接分数越高,所述候选实体与所述提及的相似度越高;每个所述提及从其对应的所述第一候选实体集合中选取第一链接分数最高的实体作为链接实体;所述第一候选实体集合中包括多个候选实体;检测模块,用于检测所述提及选取的所述链接实体是否正确,若正确将所述链接实体添加到证据集合中;纠正模块,若不正确,纠正所述提及选取的所述链接实体。
[0015]进一步地,本专利技术还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实体的链接方法的步骤。
[0016]本专利技术与现有技术对比的有益效果包括:本专利技术提出的实体链接方法,可以高效地利用全局实体信息,并且能够对潜在链接错误的提及进行纠正,ELCT

C在所有跨域数据集的F1平均得分上整体提高了0.84%。
附图说明
[0017]通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:图1是本专利技术实施例1提出的一种实体的链接方法的流程示意图。
[0018]图2是本专利技术实施例1提出的一种实体的链接装置的结构框图。
具体实施方式
[0019]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术。但是本专利技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似改进,因此本专利技术不受下面公开的具体实施的限制。
[0020]实施例1结合图1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体的链接方法,其特征在于,包括以下步骤:S1、输入数据,所述数据包括文档、文档中的提及和提及对应的第一候选实体集合;S2、获取每个所述提及与其对应的所述第一候选实体集合中的候选实体的第一链接分数,所述第一链接分数越高,所述候选实体与所述提及的相似度越高;每个所述提及从其对应的所述第一候选实体集合中选取第一链接分数最高的实体作为链接实体;所述第一候选实体集合中包括多个候选实体;S3、检测步骤S2所述提及选取的所述链接实体是否正确,若正确将所述链接实体添加到证据集合中;S4、若不正确,纠正所述提及选取的所述链接实体。2.根据权利要求1所述的实体的链接方法,其特征在于,在步骤S2中,每个所述提及从其对应的所述第一候选实体集合中选取最高相似度的实体作为链接实体包括:S21、获取所述候选实体的先验分布;S22、利用所述提及的上下文信息获得所述提及的表示,计算候选实体的表示与所述提及的表示的相似度;S23、计算所述提及的类型与所述候选实体的类型相似度;S24、聚合链接实体在知识图谱中的邻域实体,得到邻域实体表示,计算所述邻域实体与所述候选实体的相似度;S25、利用注意力机制聚合证据集合中的实体的信息,得到证据集合中的实体的表示,计算链接实体与候选实体的相似度;S26、聚合、、、和,得到所述候选实体最终的第一链接分数,第一链接分数最高的所述候选实体作为链接实体。3.根据权利要求1所述的实体的链接方法,其特征在于,在步骤S3中,所述检测步骤S2所述提及选取的所述链接实体是否正确包括:S31、确定所述链接实体的类别空间,所述类别空间包括:正确、不正确和不确定;S32、利用分类函数和证据集合中的实体判断当前链接实体的类别;S33、选择具有最大概率的类别作为链接实体的类别。4.根据权利要求3所述的实体的链接方法,其特征在于,在步骤S33之后还包括:步骤S34、若链接实体的类别是正确,则将该实体添加到证据集合中。5.根据权利要求4所述的实体的链接方法,其特征在于,在步骤S4中,所述若不正确,纠正所述提及选取的所述链接实体包括:S41、若所述连接实体的类别不正确,则按照步骤S2的方法获取所述链接实体的类别为不正确所对应的...

【专利技术属性】
技术研发人员:周玉孙建宗成庆
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1