实体链接方法技术

技术编号:39598718 阅读:14 留言:0更新日期:2023-12-03 19:57
本申请公开了一种实体链接方法

【技术实现步骤摘要】
实体链接方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,更具体地,涉及一种实体链接方法

装置

电子设备及存储介质


技术介绍

[0002]实体链接(
entity linking
)就是将一段文本中的词(也叫提及词)映射到知识库中对应的实体上(也就是实体词)

[0003]相关技术中,可以通过预训练的提及编码器将提及词对应的描述文本映射成向量,得到提及词对应的文本特征,并通过预训练的实体编码器将知识库中所有的实体词各自的描述文本映射成向量,得到各实体词各自的文本特征;之后,根据提及词对应的文本特征以及每个实体词各自的文本特征,从知识库中所有的实体词中筛选出提及词链接的目标实体词

[0004]然而,现有的方法确定实体链接的准确性还有待提高


技术实现思路

[0005]有鉴于此,本申请实施例提出了一种实体链接方法

装置

电子设备及存储介质

[0006]第一方面,本申请实施例提供了一种实体链接方法,方法包括:根据提及词以及提及词所在的第一文本中多个主干词,构建第一层次图;在第一层次图中同一语句中多个主干词对应的主干节点与提及节点相连接,提及节点代表提及词,一个主干节点代表一个主干词;根据第一层次图中各节点的节点表示,确定提及词对应的图语义特征;获取多个预置实体词中每个预置实体词对应的图语义特征以及各预置实体词所在第二文本对应的文本特征,预置实体词对应的图语义特征是根据预置实体词对应的第二层次图中各节点的节点表示确定的,预置实体词对应的第二层次图是根据预置实体词以及每个预置实体词所在的第二文本中的多个主干词构建的,在预置实体词对应的第二层次图中同一语句中多个主干词对应的主干节点与预置实体词对应的实体节点相连接,实体节点代表预置实体词;根据提及词对应的图语义特征

第一文本对应的文本特征

每个预置实体词对应的图语义特征以及每个预置实体词所在的第二文本对应的文本特征,在多个预置实体词中确定提及词链接的目标实体词

[0007]第二方面,本申请实施例提供了一种实体链接装置,装置包括:构建模块,用于根据提及词以及提及词所在的第一文本中多个主干词,构建第一层次图;在第一层次图中同一语句中多个主干词对应的主干节点与提及节点相连接,提及节点代表提及词,一个主干节点代表一个主干词;确定模块,用于根据第一层次图中各节点的节点表示,确定提及词对应的图语义特征;获取模块,用于获取多个预置实体词中每个预置实体词对应的图语义特征以及各预置实体词所在第二文本对应的文本特征,预置实体词对应的图语义特征是根据预置实体词对应的第二层次图中各节点的节点表示确定的,预置实体词对应的第二层次图是根据预置实体词以及每个预置实体词所在的第二文本中的多个主干词构建的,在预置实
体词对应的第二层次图中同一语句中多个主干词对应的主干节点与预置实体词对应的实体节点相连接,实体节点代表预置实体词;词确定模块,用于根据提及词对应的图语义特征

第一文本对应的文本特征

每个预置实体词对应的图语义特征以及每个预置实体词所在的第二文本对应的文本特征,在多个预置实体词中确定提及词链接的目标实体词

[0008]可选地,构建模块,还用于为第一文本中每个主干词构建一个主干节点,并为提及词构建提及节点;根据第一文本中多个主干词构建中继节点;同一语句中多个主干词对应一个中继节点;将第一文本中同一语句对应的中继节点以及主干节点相互连接,以及将第一文本中不同语句对应的中继节点分别与提及节点进行连接,得到第一层次图

[0009]可选地,确定模块,还用于对第一文本进行语义编码,获得第一文本对应的编码特征序列;从第一文本对应的编码特征序列中获取提及词的特征,作为提及节点的节点表示;从第一文本对应的编码特征序列中获取第一文本中各主干词的特征,作为第一层次图中主干词对应的主干节点的节点表示;根据第一层次图中每个中继节点对应的多个主干词的主干节点表示,确定第一层次图中每个中继节点对应的中继节点表示;从第一文本对应的编码特征序列中获取第一文本对应的文本特征

[0010]可选地,确定模块,还用于对第一层次图中每个中继节点所连接多个主干节点的主干节点表示求平均,得到第一层次图中每个中继节点对应的候选节点表示;对第一层次图中每个中继节点对应的候选节点表示进行线性处理,得到第一层次图中每个中继节点对应的中继节点表示

[0011]可选地,词确定模块,还用于对提及词对应的图语义特征以及第一文本对应的文本特征进行融合,得到提及词对应的融合特征;对每个预置实体词对应的图语义特征以及该预置实体词所在的第二文本对应的文本特征进行融合,得到每个预置实体词各自对应的融合特征;将提及词对应的融合特征与每个预置实体词对应的融合特征分别进行融合,得到每个预置实体词各自对应的目标特征;根据多个预置实体词各自对应的目标特征,从多个预置实体词中确定提及词链接的目标实体词

[0012]可选地,词确定模块,还用于根据多个预置实体词各自对应的目标特征,从多个预置实体词中筛选多个候选实体词;将每个候选实体词对应的第二层次图分别与第一层次图进行连接,得到每个候选实体词对应的全局层次图;根据每个候选实体词对应的全局层次图中各节点的节点表示,确定每个候选实体词与提及词之间的第一预测匹配分数;根据每个候选实体词对应的第二文本以及第一文本的联合语义编码结果,确定每个候选实体词与提及词对应的第二预测匹配分数;根据每个候选实体词与提及词对应的第一匹配预测分数以及第二预测匹配分数,从多个候选实体词中确定提及词链接的目标实体词

[0013]可选地,词确定模块,还用于通过线性层分别对多个预置实体词各自对应的目标特征进行预测,得到每个预置实体词与提及词的匹配分数;筛选匹配分数达到分数阈值的预置实体词作为候选实体词,或,按照匹配分数由高到低筛选预设数量个预置实体词作为候选实体词

[0014]可选地,词确定模块,还用于针对每个候选实体词构建全局节点;基于第一层次图中各节点的节点表示和各候选实体词所对应第二层次图中各节点的节点表示,确定全局节点的节点表示;将第一层次图中各中继节点以及候选实体词对应的第二层次图中各中继节点,分别与全局节点连接,并将全局节点对应的节点表示与全局节点进行关联,得到候选实
体词对应的全局层次图

[0015]可选地,词确定模块,还用于在每个候选实体词对应的全局层次图中确定通过全局节点的路径,作为候选实体词对应的目标路径;目标路径以候选实体词对应的全局层次图中提及词对应的提及节点为起点,且以候选实体词对应的实体节点为终点;通过图神经网络基于候选实体词对应的目标路径中各节点的节点表示进行评分,得到候选实体词对应的每个目标路本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种实体链接方法,其特征在于,所述方法包括:根据提及词以及所述提及词所在的第一文本中多个主干词,构建第一层次图;在所述第一层次图中同一语句中多个主干词对应的主干节点与提及节点相连接,所述提及节点代表所述提及词,一个主干节点代表一个主干词;根据所述第一层次图中各节点的节点表示,确定所述提及词对应的图语义特征;获取多个预置实体词中每个预置实体词对应的图语义特征以及各预置实体词所在第二文本对应的文本特征,所述预置实体词对应的图语义特征是根据所述预置实体词对应的第二层次图中各节点的节点表示确定的,预置实体词对应的第二层次图是根据所述预置实体词以及每个所述预置实体词所在的第二文本中的多个主干词构建的,在所述预置实体词对应的第二层次图中同一语句中多个主干词对应的主干节点与所述预置实体词对应的实体节点相连接,所述实体节点代表所述预置实体词;根据所述提及词对应的图语义特征

所述第一文本对应的文本特征

每个所述预置实体词对应的图语义特征以及每个所述预置实体词所在的第二文本对应的文本特征,在所述多个预置实体词中确定所述提及词链接的目标实体词
。2.
根据权利要求1所述的方法,其特征在于,所述根据提及词以及所述提及词所在的第一文本中多个主干词,构建第一层次图,包括:为所述第一文本中每个主干词构建一个主干节点,并为所述提及词构建提及节点;根据所述第一文本中多个主干词构建中继节点;同一语句中多个主干词对应一个中继节点;将所述第一文本中同一语句对应的中继节点以及主干节点相互连接,以及将所述第一文本中不同语句对应的中继节点分别与所述提及节点进行连接,得到第一层次图
。3.
根据权利要求2所述的方法,其特征在于,所述根据所述第一层次图中各节点的节点表示,确定所述提及词对应的图语义特征之前,所述方法还包括:对所述第一文本进行语义编码,获得所述第一文本对应的编码特征序列;从所述第一文本对应的编码特征序列中获取所述提及词的特征,作为所述提及节点的节点表示;从所述第一文本对应的编码特征序列中获取所述第一文本中各主干词的特征,作为所述第一层次图中主干词对应的主干节点的节点表示;根据所述第一层次图中每个中继节点对应的多个主干词的主干节点表示,确定所述第一层次图中每个中继节点对应的中继节点表示;从所述第一文本对应的编码特征序列中获取第一文本对应的文本特征
。4.
根据权利要求3所述的方法,其特征在于,所述根据所述第一层次图中每个中继节点对应的多个主干词的主干节点表示,确定所述第一层次图中每个中继节点对应的中继节点表示,包括:对所述第一层次图中每个中继节点所连接多个主干节点的主干节点表示求平均,得到所述第一层次图中每个中继节点对应的候选节点表示;对所述第一层次图中每个中继节点对应的候选节点表示进行线性处理,得到所述第一层次图中每个中继节点对应的中继节点表示
。5.
根据权利要求1所述的方法,其特征在于,所述根据所述提及词对应的图语义特征

所述第一文本对应的文本特征

每个所述预置实体词对应的图语义特征以及每个所述预置实体词所在的第二文本对应的文本特征,在所述多个预置实体词中确定所述提及词链接的目标实体词,包括:对所述提及词对应的图语义特征以及所述第一文本对应的文本特征进行融合,得到所述提及词对应的融合特征;对每个所述预置实体词对应的图语义特征以及该预置实体词所在的第二文本对应的文本特征进行融合,得到每个所述预置实体词各自对应的融合特征;将所述提及词对应的融合特征与每个所述预置实体词对应的融合特征分别进行融合,得到每个所述预置实体词各自对应的目标特征;根据所述多个预置实体词各自对应的目标特征,从所述多个预置实体词中确定所述提及词链接的目标实体词
。6.
根据权利要求5所述的方法,其特征在于,所述根据所述多个预置实体词各自对应的目标特征,从所述多个预置实体词中确定所述提及词链接的目标实体词,包括:根据所述多个预置实体词各自对应的目标特征,从所述多个预置实体词中筛选多个候选实体词;将每个所述候选实体词对应的第二层次图分别与所述第一层次图进行连接,得到每个所述候选实体词对应的全局层次图;根据每个所述候选实体词对应的全局层次图中各节点的节点表示,确定每个所述候选实体词与所述提及词之间的第一预测匹配分数;根据所述每个所述候选实体词对应的第二文本以及所述第一文本的联合语义编码结果,确定每个所述候选实体词与所述提及词对应的第二预测匹配分数;根据每个所述候选实体词与所述提及词对应的第一匹配预测分数以及第二预测匹配分数,从所述多个候选实体词中确定所述提及词链接的目...

【专利技术属性】
技术研发人员:吴太强赵哲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1