一种实体链接的方法、装置、设备及存储介质制造方法及图纸

技术编号:31229995 阅读:20 留言:0更新日期:2021-12-08 10:00
本申请公开了一种实体链接的方法、装置、设备及存储介质,涉及自然语言处理领域,包括在待识别文本中获取待链接实体和待链接实体对应的上下文内容,根据待链接实体,在知识图谱中确定多个候选实体以及多个候选实体中每个候选实体的实体信息。将上下文内容和每个候选实体对应的实体信息进行匹配,得到第一匹配分数,根据第一匹配分数,确定多个候选实体中的目标候选实体。基于待链接实体和目标候选实体之间的消歧分数,确定目标候选实体中的目标实体,将目标实体确定为待链接实体对应的链接实体。实体。实体。

【技术实现步骤摘要】
一种实体链接的方法、装置、设备及存储介质


[0001]本申请涉及自然语言处理领域,尤其涉及一种实体链接的方法、装置、设备及存储介质。

技术介绍

[0002]实体链接(entity linking,EL)技术是近年来自然语言处理领域的一个热点,尤其在知识图谱构建等场景起着非常重要的作用。具体的,实体链接是一种将待识别文本中出现的实体映射至给定知识图谱中的技术,用于将待识别的实体与知识图谱中存在的实体对应起来,以完成问题回答、语义搜索、信息提取等自然语言任务。
[0003]实体链接可以包括实体识别和实体消歧两个过程,实体识别用于根据待识别实体在知识图谱中确定多个候选实体,实体消歧则用于从所有候选实体中,选出待识别实体所指的唯一实体。其中,实体消歧的本质在于一词多义,需要根据上下文的内容以及待识别实体所处语境来进行匹配识别,一般的,可以采用预处理语言模型来进行实体消歧。
[0004]由于基于预训练语言模型的实体消岐方法会考虑知识图谱中全部候选实体的实体信息,这样会导致实体消歧因为考虑过多实体信息而掩盖了更相关的信息,并且当候选实体过多本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体链接的方法,其特征在于,所述方法包括:在待识别文本中获取待链接实体和所述待链接实体对应的上下文内容;根据所述待链接实体,在知识图谱中确定多个候选实体以及所述多个候选实体中每个候选实体的实体信息;将所述上下文内容和所述每个候选实体对应的实体信息进行匹配,得到第一匹配分数;根据所述第一匹配分数,确定所述多个候选实体中的目标候选实体;基于所述待链接实体和所述目标候选实体之间的消歧分数,确定所述目标候选实体中的目标实体;将所述目标实体确定为所述待链接实体对应的链接实体。2.根据权利要求1所述的方法,其特征在于,在所述基于所述待链接实体和所述目标候选实体之间的消歧分数,确定所述目标候选实体中的目标实体之前,所述方法还包括:根据所述上下文内容对所述目标候选实体对应的实体信息进行相关性排序;根据所述相关性排序结果确定所述目标候选实体对应的实体信息中的关键信息;将所述待链接实体、所述上下文内容、所述目标候选实体和所述关键信息输入至所述实体消歧模型,通过所述实体消歧模型获取所述待链接实体和所述目标候选实体之间的所述消歧分数。3.根据权利要求1所述的方法,其特征在于,所述将所述上下文内容和所述每个候选实体对应的实体信息进行匹配,得到第一匹配分数,包括:对所述上下文内容和所述每个候选实体对应的实体信息进行分词处理,得到所述上下文内容包括的第一分词和所述每个候选实体对应的实体信息包括的第二分词;计算所述第一分词对应的词向量和所述第二分词对应的词向量的余弦相似度;根据所述余弦相似度确定所述第一匹配分数。4.根据权利要求3所述的方法,其特征在于,所述根据所述余弦相似度确定所述第一匹配分数,包括:根据所述余弦相似度获取所述每个候选实体对应的相似度分布向量;将所述每个候选实体对应的相似度分布向量输入至第一模型,通过所述第一模型获取所述上下文内容和所述每个候选实体对应的实体信息的第一匹配分数;所述第一模型用于根据相似度分布向量确定分布分数。5.根据权利要求4所述的方法,其特征在于,所述根据所述余弦相似度获取所述每个候选实体对应的相似度分布向量,包括:根据所述余弦相似度的数值,确定每个预设的余弦相似度区间中的第二分词个数;其中,所述余弦相似度预设有多个余弦相似度区间;根据所述每个预设的余弦相似度区间中的第二分词的个数,确定所述每个候选实体对应的所述相似度分布向量。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一匹配分数,确定所述多个候选实体中的目标候选实体,包括:获取所述每个候选实体的实体信息所对应的词频信息;根据所述词频信息确定所述每个候选实体对应的权重值,并根据所述权重值和所述第
一匹配分数,确定所述每个候选实体对应的第二匹配分数;若所述第二匹配分数超过第一预设阈值,则确定所述候选实体为所述目标候选实体。7.根据权利要求2所述的方法,其特征在于,所述根据所述上下文内容对所述目标候选实体对应的实体信息进行相关性排序,包括:对所述上下文内容和所述目标候选实体对应的实体信息进行分词处理,得到所述上下文内容包括的第三分词和所述目标候选实体对应的实体信息包括的第四分词;计算所述第三分词对应的词向量和所述第四分词对应的词向量的余弦相似度;根据所述第三分词对应的词向量和所述第四分词对应的词向量的余弦相似度的数值,对所述第四分词进行排序;所述根据所述相关性排序结果确定所述目标候选实体对应的实体信息中的关键信息,包括:根据所述第四分词的排序结果,确定所述第四分词中的目标分词,其中,所述目标分词与所述第三分词之间的余弦相似度超过第二预设阈值;将所述目标分词对应的实体信息确定为所述关...

【专利技术属性】
技术研发人员:刘一仝郑孙聪周博通费昊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1