探测实体链接中空实体的方法、装置和电子设备制造方法及图纸

技术编号:36807898 阅读:12 留言:0更新日期:2023-03-09 00:26
本发明专利技术公开了探测实体链接中空实体的方法、装置和电子设备,属于知识工程技术领域。方法包括:从待链接文本中获取实体提及及其对应的候选实体集合;对实体提及上下文与实体提及对应的各个候选实体的文本描述进行编码,得到编码向量,并计算语义相似度;利用所述编码向量预测实体提及与候选实体的实体类别,并计算类别相似度;根据所述语义相似度和类别相似度计算得到候选实体的得分;根据所有候选实体的得分判断所述实体提及指向空实体或作为链接结果的候选实体。本发明专利技术将实体类别这一高质量结构化信息与基于大规模预训练神经网络的实体链接方法结合,提高了实体链接的准确率;同时在大规模知识图谱下进行空实体的检测,提高了空实体的检测能力。了空实体的检测能力。了空实体的检测能力。

【技术实现步骤摘要】
探测实体链接中空实体的方法、装置和电子设备


[0001]本专利技术涉及知识工程
,尤其涉及一种探测实体链接中空实体的方法、装置和电子设备。

技术介绍

[0002]实体链接是知识工程领域的经典任务之一,其目标是从文本中找出可能对应实体的文本段(也称实体提及),并将实体提及对应到给定知识图谱的具体实体中。实体链接是连接非结构化文本与结构化知识图谱的桥梁,在知识问答、文本理解等下游自然语言处理任务上都能提供帮助。实体链接的主要难点在于自然语言的歧义性,即一个实体提及可能对应有多个候选实体。
[0003]在一些情况下,实体提及可能在知识图谱中没有正确的对应实体,这种情况下我们称该实体提及对应“空实体”。空实体检测问题的目标是对于文本中的实体提及,检测其中指向空实体的部分。空实体检测可以提高实体链接结果的精确度,为下游任务提供更可靠的实体信息。
[0004]目前,实体链接的方法可以分为两大类:其一是基于表示学习的方法,其二是基于大规模预训练神经网络的方法。基于表示学习的方法常利用图结构、类别等高质量结构化信息学习实体与文本的向量表示,对结构化信息利用充足,也同时在传统数据集上有着更高的准确率;基于大规模预训练神经网络的方法则引入了预训练语言模型,利用其强大的语义编码能力对实体的文本描述进行编码,进而计算文本相似度作为链接依据。
[0005]题为“Neural Collective Entity Linking(Cao Y,Hou L,Li J,et al.Proceedings of the 27th International Conference on Computational Linguistics.2018:675

686.)”的论文,采用了基于表示学习的方法。该方法使用图卷积神经网络(GCN)来统合局部相似度与全局一致性。其首先在标注语料上联合训练得到文本与实体的向量表示,以此计算文本相似度等局部特征,之后构建文本中实体的依赖图,进一步使用图卷积神经网络计算实体的全局一致性,最后结合局部相似度与全局一致性进行链接实体的选择。该方法对于邻居较少的低频实体难以进行精确建模,可能产生误差;同时,图卷积神经网络在大规模知识图谱上运算效率较低,难以提供高效的实体链接实用服务。
[0006]题为“Scalable Zero

shot Entity Linking with Dense Entity Retrieval(Wu L,Petroni F,Josifoski M,et al.Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing(EMNLP).2020:6397

6407.)”的论文,提出了基于大规模预训练神经网络的实体链接模型BLINK。该模型认为仅使用实体的文本描述也能够取得较好的实体链接效果,以预训练语言模型BERT作为编码器基底,构建了使用两个不同编码器分别编码上下文与实体描述的双塔编码器结构,将上下文与实体描述视作一个文本对的交叉编码器结构,在大规模知识图谱上获得了可观的效果。BLINK模型在处理邻居较少的低频实体时更有优势,且能够高效处理大规模的知识图谱,但对于高质量结构化信息利用程度不足,同时未考虑空实体问题,抗噪声能力差。

技术实现思路

[0007]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。
[0008]本专利技术第一方面提供了一种探测实体链接中空实体的方法,包括:
[0009]从待链接文本中获取实体提及及其对应的候选实体集合;
[0010]对实体提及上下文与实体提及对应的各个候选实体的文本描述进行编码,得到编码向量,并计算实体提及与候选实体的语义相似度;
[0011]利用所述编码向量预测实体提及与候选实体的实体类别,并计算实体提及与候选实体的类别相似度;
[0012]根据所述语义相似度和类别相似度计算得到候选实体的得分;
[0013]根据所有候选实体的得分判断所述实体提及指向空实体或作为链接结果的候选实体。
[0014]优选地,所述从待链接文本中获取实体提及及其对应的候选实体集合包括:
[0015]根据实体链接语料构建实体别名表,所述实体别名表包括实体提及及各个实体提及对应的候选实体集合;
[0016]依据所述实体别名表,从待链接文本中获取实体提及及其对应的候选实体集合。
[0017]优选地,所述对实体提及上下文与实体提及对应的各个候选实体的文本描述进行编码,得到编码向量包括:
[0018]采用双塔编码器结构独立对实体提及上下文与实体提及对应的各个候选实体的文本描述分别进行编码,对应得到实体提及的编码向量和候选实体的编码向量。
[0019]优选地,所述利用所述编码向量预测实体提及与候选实体的实体类别包括:对所述实体提及的编码向量和候选实体的编码向量分别采用线性变换层预测实体提及与候选实体的实体类别。
[0020]优选地,所述计算实体提及与候选实体的语义相似度,以及计算实体提及与候选实体的类别相似度包括:
[0021]计算所述实体提及的编码向量和候选实体的编码向量的内积得到语义相似度;
[0022]通过计算实体提及的实体类别与候选实体的实体类别的余弦相似度得到类别相似度。
[0023]优选地,所述对实体提及上下文与实体提及对应的各个候选实体的文本描述进行编码,得到编码向量包括:
[0024]将实体提及上下文与实体提及对应的各个候选实体的文本描述作为一个文本对;
[0025]采用交叉注意力编码器结构对所述文本对进行编码,得到文本对的编码向量。
[0026]优选地,所述利用所述编码向量预测实体提及与候选实体的实体类别包括:对所述文本对的编码向量采用线性变换层预测实体提及与候选实体的实体类别。
[0027]优选地,所述计算实体提及与候选实体的语义相似度,以及计算实体提及与候选实体的类别相似度包括:
[0028]利用所述文本对的编码向量计算语义相似度;
[0029]通过计算实体提及的实体类别与候选实体的实体类别的余弦相似度得到类别相似度。
[0030]优选地,所述根据所述语义相似度和类别相似度计算得到候选实体的得分包括:
将语义相似度和类别相似度加权求和得到候选实体的得分。
[0031]优选地,所述根据所有候选实体的得分判断所述实体提及指向空实体或作为链接结果的候选实体包括:
[0032]如果所述实体提及对应的所有候选实体的得分都低于阈值,则该实体提及指向空实体,否则将得分最高的候选实体作为实体提及的链接结果。
[0033]本专利技术第二方面提供了一种探测实体链接中空实体的装置,包括:
[0034]实体提及及候选实体获取模块,用于从待链接文本中获取实体提及及其对应的候选实体集合;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种探测实体链接中空实体的方法,其特征在于,包括:从待链接文本中获取实体提及及其对应的候选实体集合;对实体提及上下文与实体提及对应的各个候选实体的文本描述进行编码,得到编码向量,并计算实体提及与候选实体的语义相似度;利用所述编码向量预测实体提及与候选实体的实体类别,并计算实体提及与候选实体的类别相似度;根据所述语义相似度和类别相似度计算得到候选实体的得分;根据所有候选实体的得分判断所述实体提及指向空实体或作为链接结果的候选实体。2.如权利要求1所述的探测实体链接中空实体的方法,其特征在于,所述从待链接文本中获取实体提及及其对应的候选实体集合包括:根据实体链接语料构建实体别名表,所述实体别名表包括实体提及及各个实体提及对应的候选实体集合;依据所述实体别名表,从待链接文本中获取实体提及及其对应的候选实体集合。3.如权利要求1所述的探测实体链接中空实体的方法,其特征在于,所述对实体提及上下文与实体提及对应的各个候选实体的文本描述进行编码,得到编码向量包括:采用双塔编码器结构独立对实体提及上下文与实体提及对应的各个候选实体的文本描述分别进行编码,对应得到实体提及的编码向量和候选实体的编码向量。4.如权利要求3所述的探测实体链接中空实体的方法,其特征在于,所述利用所述编码向量预测实体提及与候选实体的实体类别包括:对所述实体提及的编码向量和候选实体的编码向量分别采用线性变换层预测实体提及与候选实体的实体类别。5.如权利要求4所述的探测实体链接中空实体的方法,其特征在于,所述计算实体提及与候选实体的语义相似度,以及计算实体提及与候选实体的类别相似度包括:计算所述实体提及的编码向量和候选实体的编码向量的内积得到语义相似度;通过计算实体提及的实体类别与候选实体的实体类别的余弦相似度得到类别相似度。6.如权利要求1所述的探测实体链接中空实体的方法,其特征在于,所述对实体提及上下文与实体提及对应的各个候选实体的文本描述进行编码,得到编码向量包括:将实体提及上下文与实体提及对应的各个候选实体的文本描述作为一个文本对;采用交叉注意力编码器结构对所述文本对进行编码,得到文本对的编码向量。7.如权利要求6所述的探测实体链接中空实体的方法,其...

【专利技术属性】
技术研发人员:李涓子祝方韦金海龙刘丁枭冷佳泓
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1