【技术实现步骤摘要】
实体链接方法、装置、电子设备及存储介质
[0001]本申请涉及人工智能
,更具体地,涉及一种实体链接方法
、
装置
、
电子设备及存储介质
。
技术介绍
[0002]实体链接(
entity linking
)就是将一段文本中的词(也叫提及词)映射到知识库中对应的实体上(也就是实体词)
。
[0003]相关技术中,可以通过预训练的提及编码器将提及词对应的描述文本映射成向量,得到提及词对应的文本特征,并通过预训练的实体编码器将知识库中所有的实体词各自的描述文本映射成向量,得到各实体词各自的文本特征;之后,根据提及词对应的文本特征以及每个实体词各自的文本特征,从知识库中所有的实体词中筛选出提及词链接的目标实体词
。
[0004]然而,现有的方法确定实体链接的准确性还有待提高
。
技术实现思路
[0005]有鉴于此,本申请实施例提出了一种实体链接方法
、
装置
、
电子设备及存储介质
。
[0006]第一方面,本申请实施例提供了一种实体链接方法,方法包括:根据提及词以及提及词所在的第一文本中多个主干词,构建第一层次图;在第一层次图中同一语句中多个主干词对应的主干节点与提及节点相连接,提及节点代表提及词,一个主干节点代表一个主干词;根据第一层次图中各节点的节点表示,确定提及词对应的图语义特征;获取多个预置实体词中每个预置实体词对应的图语义特征以及各预置实体词所在 ...
【技术保护点】
【技术特征摘要】
1.
一种实体链接方法,其特征在于,所述方法包括:根据提及词以及所述提及词所在的第一文本中多个主干词,构建第一层次图;在所述第一层次图中同一语句中多个主干词对应的主干节点与提及节点相连接,所述提及节点代表所述提及词,一个主干节点代表一个主干词;根据所述第一层次图中各节点的节点表示,确定所述提及词对应的图语义特征;获取多个预置实体词中每个预置实体词对应的图语义特征以及各预置实体词所在第二文本对应的文本特征,所述预置实体词对应的图语义特征是根据所述预置实体词对应的第二层次图中各节点的节点表示确定的,预置实体词对应的第二层次图是根据所述预置实体词以及每个所述预置实体词所在的第二文本中的多个主干词构建的,在所述预置实体词对应的第二层次图中同一语句中多个主干词对应的主干节点与所述预置实体词对应的实体节点相连接,所述实体节点代表所述预置实体词;根据所述提及词对应的图语义特征
、
所述第一文本对应的文本特征
、
每个所述预置实体词对应的图语义特征以及每个所述预置实体词所在的第二文本对应的文本特征,在所述多个预置实体词中确定所述提及词链接的目标实体词
。2.
根据权利要求1所述的方法,其特征在于,所述根据提及词以及所述提及词所在的第一文本中多个主干词,构建第一层次图,包括:为所述第一文本中每个主干词构建一个主干节点,并为所述提及词构建提及节点;根据所述第一文本中多个主干词构建中继节点;同一语句中多个主干词对应一个中继节点;将所述第一文本中同一语句对应的中继节点以及主干节点相互连接,以及将所述第一文本中不同语句对应的中继节点分别与所述提及节点进行连接,得到第一层次图
。3.
根据权利要求2所述的方法,其特征在于,所述根据所述第一层次图中各节点的节点表示,确定所述提及词对应的图语义特征之前,所述方法还包括:对所述第一文本进行语义编码,获得所述第一文本对应的编码特征序列;从所述第一文本对应的编码特征序列中获取所述提及词的特征,作为所述提及节点的节点表示;从所述第一文本对应的编码特征序列中获取所述第一文本中各主干词的特征,作为所述第一层次图中主干词对应的主干节点的节点表示;根据所述第一层次图中每个中继节点对应的多个主干词的主干节点表示,确定所述第一层次图中每个中继节点对应的中继节点表示;从所述第一文本对应的编码特征序列中获取第一文本对应的文本特征
。4.
根据权利要求3所述的方法,其特征在于,所述根据所述第一层次图中每个中继节点对应的多个主干词的主干节点表示,确定所述第一层次图中每个中继节点对应的中继节点表示,包括:对所述第一层次图中每个中继节点所连接多个主干节点的主干节点表示求平均,得到所述第一层次图中每个中继节点对应的候选节点表示;对所述第一层次图中每个中继节点对应的候选节点表示进行线性处理,得到所述第一层次图中每个中继节点对应的中继节点表示
。5.
根据权利要求1所述的方法,其特征在于,所述根据所述提及词对应的图语义特征
、
所述第一文本对应的文本特征
、
每个所述预置实体词对应的图语义特征以及每个所述预置实体词所在的第二文本对应的文本特征,在所述多个预置实体词中确定所述提及词链接的目标实体词,包括:对所述提及词对应的图语义特征以及所述第一文本对应的文本特征进行融合,得到所述提及词对应的融合特征;对每个所述预置实体词对应的图语义特征以及该预置实体词所在的第二文本对应的文本特征进行融合,得到每个所述预置实体词各自对应的融合特征;将所述提及词对应的融合特征与每个所述预置实体词对应的融合特征分别进行融合,得到每个所述预置实体词各自对应的目标特征;根据所述多个预置实体词各自对应的目标特征,从所述多个预置实体词中确定所述提及词链接的目标实体词
。6.
根据权利要求5所述的方法,其特征在于,所述根据所述多个预置实体词各自对应的目标特征,从所述多个预置实体词中确定所述提及词链接的目标实体词,包括:根据所述多个预置实体词各自对应的目标特征,从所述多个预置实体词中筛选多个候选实体词;将每个所述候选实体词对应的第二层次图分别与所述第一层次图进行连接,得到每个所述候选实体词对应的全局层次图;根据每个所述候选实体词对应的全局层次图中各节点的节点表示,确定每个所述候选实体词与所述提及词之间的第一预测匹配分数;根据所述每个所述候选实体词对应的第二文本以及所述第一文本的联合语义编码结果,确定每个所述候选实体词与所述提及词对应的第二预测匹配分数;根据每个所述候选实体词与所述提及词对应的第一匹配预测分数以及第二预测匹配分数,从所述多个候选实体词中确定所述提及词链接的目...
【专利技术属性】
技术研发人员:吴太强,赵哲,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。