【技术实现步骤摘要】
一种跨语言实体链接方法、系统、设备及终端
[0001]本专利技术属于知识图谱
,尤其涉及一种跨语言实体链接方法、系统、介质、设备及终端。
技术介绍
[0002]目前,大数据时代,随着网络数据以指数级别增长,也对快速准确地获取目标信息提出了挑战。从文本数据中利用信息抽取技术得到结构化数据,知识图谱就已经初步成型,但是要真正大幅度使用还是有问题,因为自然语言具有复杂性、多义性和模糊性的多重特点,具体说来,即是同一实体可用不同的文本表达(多词一义),而同一文本可能表达多个不同的实体(一词多义)。通过进行实体链接(Entity Linking),也即将文本中的实体指称与知识库中的实体进行链接,能够将文本数据转化为带有实体标注的文本,进而帮助人和计算机理解文本的具体含义,其潜在的应用包括信息提取、信息检索和知识库填充。
[0003]同时,从网络上获取的结构化或非结构化数据往往由多种语言组成,如何整合多语言的数据,并结构化统一描述、存储,是目前业界的一大难题。
[0004]跨语言的实体链接可以链接不同语种的知识库,链接后的知识库允许用户同时检索查看同一知识在不同语种里的表达,具有现实意义。
[0005]因此,针对现有技术在知识图谱中同时存在多种语言的实体的场景下,无法进行跨语言链接的问题,亟需设计一种跨语言实体链接方法及系统。
[0006]通过上述分析,现有技术存在的问题及缺陷为:现有技术在知识图谱中同时存在多种语言的实体的场景下,无法进行跨语言链接的问题。
技术实现思路
[ ...
【技术保护点】
【技术特征摘要】
1.一种跨语言实体链接方法,其特征在于,所述跨语言实体链接方法包括:搜索候选实体,构建实体名索引;利用构建的实体链接模型实现跨语言实体链接;所述实体链接模型包含三种实体链接计算模型:基于属性、基于共现实体、基于上下文的实体链接模型,根据输入信息的不同线索,选取相应的模型进行计算,得到实体链接结果。2.如权利要求1所述的跨语言实体链接方法,其特征在于,所述实体链接模型的构建方法包括:构建基于不同线索的实体链接模型;基于属性的实体链接进行向量嵌入及融合;基于共现实体的多线索实体链接。3.如权利要求1所述的跨语言实体链接方法,其特征在于,所述跨语言实体链接方法还包括:对于给定语种的指称,找到在知识图谱中的候选实体;根据中英文的实体名和实体描述,将每个不同的描述文本映射到其目标实体名,构建实体名索引;构建索引后,将指称项进行词嵌入,与图谱中的实体计算相似度,筛选相似度大于规定阈值的候选项后,利用向量融合的方法将其他语种的实体映射到同一向量空间中;构建基于不同线索的实体链接模型:基于属性、基于共现实体、基于上下文的实体链接,并通过候选实体集合以及提供线索选择不同的实体链接模型,得到指称项在不同语种中的跨语言链接结果;基于属性的实体链接,将实体指称项与属性描述进行向量嵌入后经过图卷积模型进行融合,计算各自属性向量的求和平均值作为实体之前的相似度系数,从而求出链接实体;基于共现实体的实体链接,利用相似系数计算共现实体在中心实体所占的比重的注意力特征,结合共现关系的向量化特征计算目标实体与图谱中实体的相似度,得到链接实体;基于上下文的实体链接,将实体指称与属于实体共指链的上下文组合在一起形成句子序列,使用神经网络模型对序列建模,与图谱中实体作相似度计算,得到链接实体。4.如权利要求1所述的跨语言实体链接方法,其特征在于,所述跨语言实体链接方法包括以下步骤:步骤一,从已有知识库中获取实体名—实体描述文本,根据既有知识库,将不同语种的实体描述文本映射到其在知识库中的实体名称,利用多语言知识库构建实体名索引;构建索引可以有效降低候选实体的检索时间;步骤二,获取待链接目标文本,从文本中抽取待链接的实体指称项以及实体上下文描述,获取该实体拥有的属性,以及文本中出现的共现实体;步骤三,通过实体名索引,计算实体指称项与知识库中实体之间的相似度,将相似度与预设的候选实体阈值进行比较,并判断是否存在相似度分数小于所述候选实体阈值;若是,则对于该指称项放弃所述实体;若否,则将所述实体加入指称项的候选实体集合中,并转向步骤三;先一步筛选候选实体减少后续模型的计算量;步骤四,利用向量融合方法将其他语言的词向量映射为英语的词向量,将不同语种的向量映射到同一向量空间中;将所有实体映射到同一向量空间以实现跨语言的实体比较;步骤五,通过候选实体集合以及提取出的线索选择不同的实体链接模型,合并各个模
型的链接结果,得到指称项在不同语种中最终的跨语言链接结果;根据线索选择不同的链接模型,更全面地利用实体的信息进行实体链接的计算,使得链接结果更加准确且合理。5.如权利要求4所述的跨语言实体链接方法,其特征在于,所述步骤一中,对于跨语言实体链接实体名索引,使用英文维基百科索引,并从各自的目标语言维基百科构建实体名索引;其中,所述英文维基百科索引从英文快照构建;使用经典word2vec中的CBOW模型生成各语种的...
【专利技术属性】
技术研发人员:蔡超,严凤兵,郝雁华,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。