【技术实现步骤摘要】
一种基于深度语义邻居和多元实体关联的协同消歧方法
本专利技术涉及计算机自然语言处理
,具体涉及一种基于深度语义邻居和多元实体关联的协同消歧方法。
技术介绍
实体消歧(EntityDisambiguation,简称ED)是知识图谱构建、信息抽取、知识问答等多个计算机自然语言处理任务中涉及的关键技术。一般地,实体消歧在文本中的应用也叫作实体链接,用于将非结构文本中识别出的实体指称(mention)准确映射到指定知识库的具体实体条目(entity)。非结构文本中实体指称的识别,一般情况下是通过命名实体识别(NER)任务完成;具体的,实体消歧任务分为候选实体生成、消歧和不可链接预测三个模块。然而,在进行实体消歧任务中,实体存在的多样性表达方式;在不同的文本实例中,相同的实体指称可能指代不同的实体条目,或者同一个实体项在不同的文本语境中有着不同的表达形式,比如:在英文文本中,“Titanic”可以指代一个电影、一艘船或者一个沉船事故。如何准确地对这些实体项进行映射,是完成实体消歧任务的关键。现有的研究工作中,消歧方法主要分为单实体消歧方法和协同消歧方法。单实体消歧方法着重于对指定实体指称的局部上下文与相关候选实体的描述信息进行相似度匹配;协同消歧方法是更进一步地考虑同一文档中待消歧的实体指称之间的关联性,认为同一个文档中所有实体指称对应的实体之间的存在一致性,或者具有同一个讨论主题。基于这一前提,协同消歧算法被提出。现有协同消歧算法的一般做法是通过将文档中存在的实体指称以及候选实体构建成实体语义关联图进行计算。然 ...
【技术保护点】
1.一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于,包括以下步骤:/n确定文本中的实体指称个数,生成实体指称集;确定每一个实体指称的上下文信息,基于映射字典为文档中每个实体指称生成候选实体集;/n通过预训练获取文本中每一个单词以及相应候选实体的向量表示,并计算生成实体指称的向量表示;/n计算实体指称和候选实体之间的字符串匹配度、上下文相似度,构建局部相似度特征;/n结合候选实体的向量表示、实体指称的向量表示,基于深度语义信息提取文本中实体指称间的局部一致性特征,得到实体指称对应的邻接指称;/n基于局部相似度特征、实体指称的候选实体集、邻接指称的候选实体集构建初始实体语义关联图;/n将整个实体指称集划分为低歧义和高歧义两部分;/n对于低歧义实体指称,从初始实体语义关联图中删除实体指称对应的映射实体以外的冗余候选实体节点和涉及的边,并从文档中选取低歧义实体指称的关键词作为节点引入到实体语义关联图中,与其映射实体节点建立边关系;对于高歧义实体指称,从候选实体描述页面中选择候选实体的关键词作为证据节点与相应的候选实体节点连接,形成新的边;得到最终实体语义相关图;/n将局部相似度特 ...
【技术特征摘要】
1.一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于,包括以下步骤:
确定文本中的实体指称个数,生成实体指称集;确定每一个实体指称的上下文信息,基于映射字典为文档中每个实体指称生成候选实体集;
通过预训练获取文本中每一个单词以及相应候选实体的向量表示,并计算生成实体指称的向量表示;
计算实体指称和候选实体之间的字符串匹配度、上下文相似度,构建局部相似度特征;
结合候选实体的向量表示、实体指称的向量表示,基于深度语义信息提取文本中实体指称间的局部一致性特征,得到实体指称对应的邻接指称;
基于局部相似度特征、实体指称的候选实体集、邻接指称的候选实体集构建初始实体语义关联图;
将整个实体指称集划分为低歧义和高歧义两部分;
对于低歧义实体指称,从初始实体语义关联图中删除实体指称对应的映射实体以外的冗余候选实体节点和涉及的边,并从文档中选取低歧义实体指称的关键词作为节点引入到实体语义关联图中,与其映射实体节点建立边关系;对于高歧义实体指称,从候选实体描述页面中选择候选实体的关键词作为证据节点与相应的候选实体节点连接,形成新的边;得到最终实体语义相关图;
将局部相似度特征和最终实体语义相关图输入到基于图注意力网络的消歧模型中,对局部相似度特征以及全局特征进行聚合,输出每一个实体指称对应的映射实体。
2.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于:通过窗口设置获取实体指称周围的文本得到每一个实体指称的上下文信息。
3.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于:预训练使用word2vec模型,采用基于预训练词嵌入的实体嵌入方法。
4.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于,所述局部相似度特征包括局部上下文相似度特征,所述局部上下文相似度特征包括词级相似度特征、句级相似度特征;提取所述局部上下文相似度特征按照以下步骤进行:
通过知识库获得实体指称的上下文和候选实体的文本表示;
根据实体指称的上下文和候选实体的文本表示,提取实体指称和候选实体的词级相似度特征;
基于双向长短期记忆神经网络模型提取实体指称和候选实体的句级相似度特征。
5.根据...
【专利技术属性】
技术研发人员:钟将,贺紫涵,戴启祝,余尧,
申请(专利权)人:重庆大学,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。