当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于深度语义邻居和多元实体关联的协同消歧方法技术

技术编号:28673561 阅读:22 留言:0更新日期:2021-06-02 02:49
本发明专利技术提供一种基于深度语义邻居和多元实体关联的协同消歧方法,包括以下步骤:生成实体指称集、候选实体集;获取候选实体、实体指称的向量表示;构建“实体指称‑候选实体”之间的字符串匹配度、上下文相似度局部特征;提取实体指称间的局部一致性特征得到邻接指称;基于局部相似度特征、实体指称及邻接指称的候选实体集构建初始实体语义关联图;将整个实体指称集划分为低歧义和高歧义两部分,基于此对实体语义相关图进行丰富更新;对局部相似度特征以及全局特征通过基于图注意力网络的消歧模型进行聚合,输出每一个实体指称对应的映射实体。本发明专利技术可以解决文档级别的实体消歧任务中存在的协同消歧计算成本高及实体的局部一致性问题。

【技术实现步骤摘要】
一种基于深度语义邻居和多元实体关联的协同消歧方法
本专利技术涉及计算机自然语言处理
,具体涉及一种基于深度语义邻居和多元实体关联的协同消歧方法。
技术介绍
实体消歧(EntityDisambiguation,简称ED)是知识图谱构建、信息抽取、知识问答等多个计算机自然语言处理任务中涉及的关键技术。一般地,实体消歧在文本中的应用也叫作实体链接,用于将非结构文本中识别出的实体指称(mention)准确映射到指定知识库的具体实体条目(entity)。非结构文本中实体指称的识别,一般情况下是通过命名实体识别(NER)任务完成;具体的,实体消歧任务分为候选实体生成、消歧和不可链接预测三个模块。然而,在进行实体消歧任务中,实体存在的多样性表达方式;在不同的文本实例中,相同的实体指称可能指代不同的实体条目,或者同一个实体项在不同的文本语境中有着不同的表达形式,比如:在英文文本中,“Titanic”可以指代一个电影、一艘船或者一个沉船事故。如何准确地对这些实体项进行映射,是完成实体消歧任务的关键。现有的研究工作中,消歧方法主要分为单实体消歧方法和协同消歧方法。单实体消歧方法着重于对指定实体指称的局部上下文与相关候选实体的描述信息进行相似度匹配;协同消歧方法是更进一步地考虑同一文档中待消歧的实体指称之间的关联性,认为同一个文档中所有实体指称对应的实体之间的存在一致性,或者具有同一个讨论主题。基于这一前提,协同消歧算法被提出。现有协同消歧算法的一般做法是通过将文档中存在的实体指称以及候选实体构建成实体语义关联图进行计算。然而这种实体指称间的联合推理机制同样也带来了一些问题:首先,实体的联合计算导致了昂贵的计算成本,特别是当实体图可能包含数百个节点的长文档时;其次,考虑全体实体指称的一致性假设过于绝对,更会不可避免地引入干扰因素,抗干扰能力弱。另一方面,对于一些具有高歧义的实体指称,其对应的候选实体之间也具有高度相似性,造成对具有高歧义的实体指称辨识能力差,这给整个消歧过程带来很大的挑战。
技术实现思路
针对现有技术存在的不足,本专利技术提出一种基于深度语义邻居和多元实体关联的协同消歧方法,以解决现有技术中存在的针对文档级别的实体消歧任务,存在协同消歧算法使用实体语义关联图进行计算时,计算成本高、抗干扰能力弱、对具有高歧义的实体指称辨识能力差的技术问题。本专利技术采用的技术方案是,一种基于深度语义邻居和多元实体关联的协同消歧方法,包括以下步骤:确定文本中的实体指称个数,生成实体指称集;确定每一个实体指称的上下文信息,基于映射字典为文档中每个实体指称生成候选实体集;通过预训练获取文本中每一个单词以及相应候选实体的向量表示,并计算生成实体指称的向量表示;计算实体指称和候选实体之间的字符串匹配度、上下文相似度,构建局部相似度特征;结合候选实体的向量表示、实体指称的向量表示,基于深度语义信息提取文本中实体指称间的局部一致性特征,得到实体指称对应的邻接指称;基于局部相似度特征、实体指称的候选实体集、邻接指称的候选实体集构建初始实体语义关联图;将整个实体指称集划分为低歧义和高歧义两部分;对于低歧义实体指称,从初始实体语义关联图中删除实体指称对应的映射实体以外的冗余候选实体节点和涉及的边,并从文档中选取低歧义实体指称的关键词作为节点引入到实体语义关联图中,与其映射实体节点建立边关系;对于高歧义实体指称,从候选实体描述页面中选择候选实体的关键词作为证据节点与相应的候选实体节点连接,形成新的边;得到最终实体语义相关图;将局部相似度特征和最终实体语义相关图输入到基于图注意力网络的消歧模型中,对局部相似度特征以及全局特征进行聚合,输出每一个实体指称对应的映射实体。由上述技术方案可知,本专利技术的有益技术效果如下:提出了一种基于语义的实体指称邻接选择策略。充分利用自注意力机制对提取长距离依赖性的优势,为文本中的实体指称寻找最优指称邻居集,并在此基础上构建全局特征进行协同消歧。在一种可实现方式中,通过窗口设置获取实体指称周围的文本得到每一个实体指称的上下文信息。在一种可实现方式中,预训练使用word2vec模型,采用基于预训练词嵌入的实体嵌入方法。在一种可实现方式中,局部相似度特征包括局部上下文相似度特征,局部上下文相似度特征包括词级相似度特征、句级相似度特征;提取局部上下文相似度特征按照以下步骤进行:通过知识库获得实体指称的上下文和候选实体的文本表示;根据实体指称的上下文和候选实体的文本表示,提取实体指称和候选实体的词级相似度特征;基于双向长短期记忆神经网络模型提取实体指称和候选实体的句级相似度特征。在一种可实现方式中,提取文本中实体指称间的局部一致性特征时,通过计算每一个实体指称与其他任意实体指称间的注意力权重,得到每一个实体指称对之间的语义关联度来表征局部一致性特征。在一种可实现方式中,具体按照以下步骤得到每一个实体指称对之间的语义关联度:将整个文档送入多层自注意力机制模型进行计算;通过每个自注意力机制模型层对上下文信息和实体指称对之间的关联信息进行编码;对实体指称的嵌入表示进行更新;在多层自注意力机制模型的最后一层,将实体指称对之间的注意力权值进行归一化处理后输出,得到语义关联度。在一种可实现方式中,构建初始实体语义关联图时,将实体指称的候选实体集、与实体指称相对应的邻接指称的候选实体集作为图的初始节点,并在不同实体指称对应的候选实体之间建立边;候选实体作为节点,候选实体间的相关度作为边。由上述技术方案可知,本专利技术的有益技术效果如下:针对文本的易引起消岐错误的高歧义实体指称,提出一种实体语义关联图的构造方法,为高歧义指称的消歧过程添加更多充分的证据信息,实现实体指称在消歧过程中的自我强化效果,提高整体消歧过程的准确率。在一种可实现方式中,在将整个实体指称集划分为低歧义和高歧义两部分时,具体如下:设置准确度阈值;当实体指称与某一候选实体之间的匹配准确度小于或等于准确度阈值时,定义为高歧义实体指称;当实体指称与某一候选实体之间的匹配准确度大于准确度阈值时,定义为低歧义实体。在一种可实现方式中,对局部相似度特征以及全局特征进行聚合时,对局部相似度特征以及最终实体语义相关图的节点信息进行更新计算,得到最大化实体指称与候选实体之间的最终评分。在一种可实现方式中,具体按以下步骤计算得到最终评分:使用一个多层感知机对初始特征向量进行编码;将编码结果输入到图注意力网络模型进行计算,对候选实体之间的关联信息进行逐步的提取和叠加,得到聚合局部一致性语义信息的候选实体最终隐藏状态;通过一层线性映射对实体指称每一个候选实体的最终隐藏状态进行解码,做出最终评分。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单介绍。在所有附图中,类似的元件或部分一般由类似本文档来自技高网
...

【技术保护点】
1.一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于,包括以下步骤:/n确定文本中的实体指称个数,生成实体指称集;确定每一个实体指称的上下文信息,基于映射字典为文档中每个实体指称生成候选实体集;/n通过预训练获取文本中每一个单词以及相应候选实体的向量表示,并计算生成实体指称的向量表示;/n计算实体指称和候选实体之间的字符串匹配度、上下文相似度,构建局部相似度特征;/n结合候选实体的向量表示、实体指称的向量表示,基于深度语义信息提取文本中实体指称间的局部一致性特征,得到实体指称对应的邻接指称;/n基于局部相似度特征、实体指称的候选实体集、邻接指称的候选实体集构建初始实体语义关联图;/n将整个实体指称集划分为低歧义和高歧义两部分;/n对于低歧义实体指称,从初始实体语义关联图中删除实体指称对应的映射实体以外的冗余候选实体节点和涉及的边,并从文档中选取低歧义实体指称的关键词作为节点引入到实体语义关联图中,与其映射实体节点建立边关系;对于高歧义实体指称,从候选实体描述页面中选择候选实体的关键词作为证据节点与相应的候选实体节点连接,形成新的边;得到最终实体语义相关图;/n将局部相似度特征和最终实体语义相关图输入到基于图注意力网络的消歧模型中,对局部相似度特征以及全局特征进行聚合,输出每一个实体指称对应的映射实体。/n...

【技术特征摘要】
1.一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于,包括以下步骤:
确定文本中的实体指称个数,生成实体指称集;确定每一个实体指称的上下文信息,基于映射字典为文档中每个实体指称生成候选实体集;
通过预训练获取文本中每一个单词以及相应候选实体的向量表示,并计算生成实体指称的向量表示;
计算实体指称和候选实体之间的字符串匹配度、上下文相似度,构建局部相似度特征;
结合候选实体的向量表示、实体指称的向量表示,基于深度语义信息提取文本中实体指称间的局部一致性特征,得到实体指称对应的邻接指称;
基于局部相似度特征、实体指称的候选实体集、邻接指称的候选实体集构建初始实体语义关联图;
将整个实体指称集划分为低歧义和高歧义两部分;
对于低歧义实体指称,从初始实体语义关联图中删除实体指称对应的映射实体以外的冗余候选实体节点和涉及的边,并从文档中选取低歧义实体指称的关键词作为节点引入到实体语义关联图中,与其映射实体节点建立边关系;对于高歧义实体指称,从候选实体描述页面中选择候选实体的关键词作为证据节点与相应的候选实体节点连接,形成新的边;得到最终实体语义相关图;
将局部相似度特征和最终实体语义相关图输入到基于图注意力网络的消歧模型中,对局部相似度特征以及全局特征进行聚合,输出每一个实体指称对应的映射实体。


2.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于:通过窗口设置获取实体指称周围的文本得到每一个实体指称的上下文信息。


3.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于:预训练使用word2vec模型,采用基于预训练词嵌入的实体嵌入方法。


4.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于,所述局部相似度特征包括局部上下文相似度特征,所述局部上下文相似度特征包括词级相似度特征、句级相似度特征;提取所述局部上下文相似度特征按照以下步骤进行:
通过知识库获得实体指称的上下文和候选实体的文本表示;
根据实体指称的上下文和候选实体的文本表示,提取实体指称和候选实体的词级相似度特征;
基于双向长短期记忆神经网络模型提取实体指称和候选实体的句级相似度特征。


5.根据...

【专利技术属性】
技术研发人员:钟将贺紫涵戴启祝余尧
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1