一种跨语言实体链接方法、系统、设备及终端技术方案

技术编号:35932923 阅读:9 留言:0更新日期:2022-12-14 10:19
本发明专利技术属于跨语言实体链接技术领域,公开了一种跨语言实体链接方法、系统、介质、设备及终端,所述跨语言实体链接方法包括:搜索候选实体,构建实体名索引;构建基于不同线索的实体链接模型;基于属性的实体链接进行向量嵌入及融合;基于共现实体的多线索实体链接。本发明专利技术使用三种线索实现了实体链接,线索分别是实体属性、共现实体、上下文描述,并结合运用了LSTM、CNN、GCN等神经网络结构进行词嵌入表示与网络建模,相较于传统实体链接技术具有更强的语义表征能力和链接方法具有跨语言能力;通过分析不同形式的信息,实现三种不同结构的多线索跨语言实体链接算法,完成了新闻文本跨语言人物、机构等实体和给定知识库的精准链接。机构等实体和给定知识库的精准链接。机构等实体和给定知识库的精准链接。

【技术实现步骤摘要】
一种跨语言实体链接方法、系统、设备及终端


[0001]本专利技术属于知识图谱
,尤其涉及一种跨语言实体链接方法、系统、介质、设备及终端。

技术介绍

[0002]目前,大数据时代,随着网络数据以指数级别增长,也对快速准确地获取目标信息提出了挑战。从文本数据中利用信息抽取技术得到结构化数据,知识图谱就已经初步成型,但是要真正大幅度使用还是有问题,因为自然语言具有复杂性、多义性和模糊性的多重特点,具体说来,即是同一实体可用不同的文本表达(多词一义),而同一文本可能表达多个不同的实体(一词多义)。通过进行实体链接(Entity Linking),也即将文本中的实体指称与知识库中的实体进行链接,能够将文本数据转化为带有实体标注的文本,进而帮助人和计算机理解文本的具体含义,其潜在的应用包括信息提取、信息检索和知识库填充。
[0003]同时,从网络上获取的结构化或非结构化数据往往由多种语言组成,如何整合多语言的数据,并结构化统一描述、存储,是目前业界的一大难题。
[0004]跨语言的实体链接可以链接不同语种的知识库,链接后的知识库允许用户同时检索查看同一知识在不同语种里的表达,具有现实意义。
[0005]因此,针对现有技术在知识图谱中同时存在多种语言的实体的场景下,无法进行跨语言链接的问题,亟需设计一种跨语言实体链接方法及系统。
[0006]通过上述分析,现有技术存在的问题及缺陷为:现有技术在知识图谱中同时存在多种语言的实体的场景下,无法进行跨语言链接的问题。

技术实现思路

[0007]针对现有技术存在的问题,本专利技术提供了一种跨语言实体链接方法、系统、介质、设备及终端,尤其涉及一种基于多线索的跨语言实体链接方法、系统、介质、设备及终端。
[0008]本专利技术是这样实现的,一种跨语言实体链接方法,所述跨语言实体链接方法包括:搜索候选实体,构建实体名索引;利用构建的实体链接模型实现跨语言实体链接;所述实体链接模型包含三种实体链接计算模型:基于属性、基于共现实体、基于上下文的实体链接模型,根据输入信息的不同线索,选取相应的模型进行计算,得到实体链接结果。
[0009]进一步,所述实体链接模型的构建方法包括:
[0010]构建基于不同线索的实体链接模型;
[0011]基于属性的实体链接进行向量嵌入及融合;
[0012]基于共现实体的多线索实体链接。
[0013]进一步,所述跨语言实体链接方法还包括:
[0014]对于给定语种的指称,找到在知识图谱中的候选实体;根据中英文的实体名和实体描述,将每个不同的描述文本映射到其目标实体名,构建实体名索引。
[0015]构建索引后,将指称项进行词嵌入,与图谱中的实体计算相似度,筛选相似度大于
规定阈值的候选项后,利用向量融合的方法将其他语种的实体映射到同一向量空间中。
[0016]构建基于不同线索的实体链接模型:基于属性、基于共现实体、基于上下文的实体链接,并通过候选实体集合以及提供线索选择不同的实体链接模型,得到指称项在不同语种中的跨语言链接结果。
[0017]基于属性的实体链接,将实体指称项与属性描述进行向量嵌入后经过图卷积模型进行融合,计算各自属性向量的求和平均值作为实体之前的相似度系数,从而求出链接实体。
[0018]基于共现实体的实体链接,利用相似系数计算共现实体在中心实体所占的比重的注意力特征,结合共现关系的向量化特征计算目标实体与图谱中实体的相似度,得到链接实体。
[0019]基于上下文的实体链接,将实体指称与属于实体共指链的上下文组合在一起形成句子序列,使用神经网络模型对序列建模,与图谱中实体作相似度计算,得到链接实体。
[0020]进一步,所述跨语言实体链接方法包括以下步骤:
[0021]步骤一,从已有知识库中获取实体名—实体描述文本,根据既有知识库,将不同语种的实体描述文本映射到其在知识库中的实体名称,利用多语言知识库构建实体名索引;构建索引可以有效降低候选实体的检索时间。
[0022]步骤二,获取待链接目标文本,从文本中抽取待链接的实体指称项以及实体上下文描述,获取该实体拥有的属性,以及文本中出现的共现实体。
[0023]步骤三,通过实体名索引,计算实体指称项与知识库中实体之间的相似度,将相似度与预设的候选实体阈值进行比较,并判断是否存在相似度分数小于所述候选实体阈值;
[0024]若是,则对于该指称项放弃所述实体;若否,则将所述实体加入指称项的候选实体集合中,并转向步骤三;先一步筛选候选实体可以减少后续模型的计算量。
[0025]步骤四,利用向量融合方法将其他语言的词向量映射为英语的词向量,将不同语种的向量映射到同一向量空间中;将所有实体映射到同一向量空间以实现跨语言的实体比较。
[0026]步骤五,通过候选实体集合以及提取出的线索选择不同的实体链接模型,合并各个模型的链接结果,得到指称项在不同语种中最终的跨语言链接结果;根据线索选择不同的链接模型,可以更全面地利用实体的信息进行实体链接的计算,使得链接结果更加准确且合理。
[0027]进一步,所述步骤一中,对于跨语言实体链接实体名索引,使用英文实体名作为基础实体名索引,并从各自的目标语言知识库构建实体名索引;其中,使用经典word2vec中的CBOW(Continuous Bag

of

Words)模型生成各语种的单词嵌入。
[0028]所述步骤一后需要将描述文本-标题作为正样本,一个批次中其他样例作为负样本,计算指称项和实体之间的相似度;使用正负样本获取更准确地实体相似度,通过正负样本微调两个预训练模型,一个用于嵌入指称项,一个用于嵌入候选实体;在训练完成的基础上,将所有知识库的实体用向量表示存储在数据库中。
[0029]进一步,所述步骤四中使用多种不同的向量融合方法对比,包括:
[0030]CCA(Canonical Correlation Analysis):对不同语言的文本执行SVD(SingularValue Decomposition)后,对平行语料库中对齐的单词的向量对应用典型相关分析CCA,从
而学习向量;对于跨语言实体链接,使用从维基百科中的跨语言链接获得的标题映射构建的嵌入。
[0031]MultiCCA:在CCA的基础上,使用线性算子将除母语外的每种语言中的预训练单语嵌入投影到预训练母语单词嵌入的向量空间。
[0032]LS(Weighted Least Squares):其他语种嵌入直接投影到母语上,映射通过多元回归构建。
[0033]进一步,所述步骤五中,基于属性的链接、基于共现实体的链接和基于上下文的链接。
[0034]利用以下距离方式计算属性向量:
[0035]O
AE



(a,c)∈H
w
a,c
·
logp(c|a);<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨语言实体链接方法,其特征在于,所述跨语言实体链接方法包括:搜索候选实体,构建实体名索引;利用构建的实体链接模型实现跨语言实体链接;所述实体链接模型包含三种实体链接计算模型:基于属性、基于共现实体、基于上下文的实体链接模型,根据输入信息的不同线索,选取相应的模型进行计算,得到实体链接结果。2.如权利要求1所述的跨语言实体链接方法,其特征在于,所述实体链接模型的构建方法包括:构建基于不同线索的实体链接模型;基于属性的实体链接进行向量嵌入及融合;基于共现实体的多线索实体链接。3.如权利要求1所述的跨语言实体链接方法,其特征在于,所述跨语言实体链接方法还包括:对于给定语种的指称,找到在知识图谱中的候选实体;根据中英文的实体名和实体描述,将每个不同的描述文本映射到其目标实体名,构建实体名索引;构建索引后,将指称项进行词嵌入,与图谱中的实体计算相似度,筛选相似度大于规定阈值的候选项后,利用向量融合的方法将其他语种的实体映射到同一向量空间中;构建基于不同线索的实体链接模型:基于属性、基于共现实体、基于上下文的实体链接,并通过候选实体集合以及提供线索选择不同的实体链接模型,得到指称项在不同语种中的跨语言链接结果;基于属性的实体链接,将实体指称项与属性描述进行向量嵌入后经过图卷积模型进行融合,计算各自属性向量的求和平均值作为实体之前的相似度系数,从而求出链接实体;基于共现实体的实体链接,利用相似系数计算共现实体在中心实体所占的比重的注意力特征,结合共现关系的向量化特征计算目标实体与图谱中实体的相似度,得到链接实体;基于上下文的实体链接,将实体指称与属于实体共指链的上下文组合在一起形成句子序列,使用神经网络模型对序列建模,与图谱中实体作相似度计算,得到链接实体。4.如权利要求1所述的跨语言实体链接方法,其特征在于,所述跨语言实体链接方法包括以下步骤:步骤一,从已有知识库中获取实体名—实体描述文本,根据既有知识库,将不同语种的实体描述文本映射到其在知识库中的实体名称,利用多语言知识库构建实体名索引;构建索引可以有效降低候选实体的检索时间;步骤二,获取待链接目标文本,从文本中抽取待链接的实体指称项以及实体上下文描述,获取该实体拥有的属性,以及文本中出现的共现实体;步骤三,通过实体名索引,计算实体指称项与知识库中实体之间的相似度,将相似度与预设的候选实体阈值进行比较,并判断是否存在相似度分数小于所述候选实体阈值;若是,则对于该指称项放弃所述实体;若否,则将所述实体加入指称项的候选实体集合中,并转向步骤三;先一步筛选候选实体减少后续模型的计算量;步骤四,利用向量融合方法将其他语言的词向量映射为英语的词向量,将不同语种的向量映射到同一向量空间中;将所有实体映射到同一向量空间以实现跨语言的实体比较;步骤五,通过候选实体集合以及提取出的线索选择不同的实体链接模型,合并各个模
型的链接结果,得到指称项在不同语种中最终的跨语言链接结果;根据线索选择不同的链接模型,更全面地利用实体的信息进行实体链接的计算,使得链接结果更加准确且合理。5.如权利要求4所述的跨语言实体链接方法,其特征在于,所述步骤一中,对于跨语言实体链接实体名索引,使用英文维基百科索引,并从各自的目标语言维基百科构建实体名索引;其中,所述英文维基百科索引从英文快照构建;使用经典word2vec中的CBOW模型生成各语种的...

【专利技术属性】
技术研发人员:蔡超严凤兵郝雁华
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1