用于知识图谱中节点和链接的多语言知识匹配方法及装置制造方法及图纸

技术编号:26171212 阅读:36 留言:0更新日期:2020-10-31 13:42
本申请涉及一种用于知识图谱中节点和链接的多语言知识匹配方法及装置,属于计算机技术领域,该方法包括:获取目标领域的多种语言类型的实体语料;对于每种语言类型的实体语料,将实体语料输入与语言类型对应的分类模型,得到实体语料对应的科目分类;将实体语料输入与语言类型和科目分类对应的语言模型,得到实体语料对应的语言识别结果;将多种语言类型的实体语料对应的语言识别结果输入预先训练的孪生网络,将语言识别结果等价的不同语言类型的实体语料连接为一个整体;可以解决专用知识图谱无法提供多语言知识的融合的问题;从原始语料层级就进行匹配,可以实现多语言知识图谱的匹配,且可以收纳上下文关联信息从而提高匹配的准确率。

【技术实现步骤摘要】
用于知识图谱中节点和链接的多语言知识匹配方法及装置
本申请涉及一种用于知识图谱匹配的多语言知识匹配方法及装置,属于计算机

技术介绍
知识图谱的建立是把文本表述的知识以概念和关系结构化,然后通过机器学习或者模型匹配的方式提取出来,再以节点和链接表示成图谱形式。知识图谱包括两个方面:1、通用知识图谱。这些知识库限于通用知识,由于语言的多义性等会引起一词多义问题,例如,关键字“发热(fever)”被定义为一种临床症状,而在维基百科中,fever还意味着一部波兰电影、约翰·多恩的一首诗和一个虚构的人物。这些意义不可能出现在医学知识图中,如果维基百科被用作直接的知识来源,会带来一定的噪声和语意曲解。2、专用知识图谱。如金融知识图谱、犯罪侦查知识图谱和医学知识图谱等,这些知识图谱聚焦更加集中和专业的特定知识,并以专业知识库为基础。专业知识库的准确性高于通用知识库,但覆盖面狭窄,而且往往是基于单一语言数据源,并且以单一语言为用户服务,因此用其他语言描述的一些知识无法融合和被利用。
技术实现思路
本申请提供了一种用于知识图谱中节点和链接的多语言知识匹配方法及装置,可以解决专用知识图谱无法提供多语言知识的融合的问题。本申请提供如下技术方案:第一方面,提供了一种用于知识图谱中节点和链接的多语言知识匹配方法,所述方法包括:获取目标领域的多种语言类型的实体语料;对于每种语言类型的实体语料,将所述实体语料输入与所述语言类型对应的分类模型,得到所述实体语料对应的科目分类,所述科目分类属于所述目标领域;所述知识分类模型基于循环卷积神经网络RCNN建立;将所述实体语料输入与所述语言类型和所述科目分类对应的语言模型,得到所述实体语料对应的语言识别结果;将所述多种语言类型的实体语料对应的语言识别结果输入预先训练的孪生网络,将语言识别结果等价的不同语言类型的实体语料连接为一个整体;所述孪生网络包括每种语言类型对应的匹配网络。可选地,所述RCNN包括依次连接的循环卷积神经网络层、最大池化max-pooling层和输出层;所述循环卷积神经网络层用于递归地计算所述待匹配语言数据中每个单词的左上下文向量和右上下文向量;将所述左上下文向量、所述单词的单词向量和所述右上下文向量进行拼接,得到所述单词的向量表示;基于所述向量表示计算所述单词的潜在语义向量;所述max-pooling层用于获取各个潜在语义向量中的最重要元素,得到所述待匹配语言数据的文本向量表示;所述输出层用于确定文本向量表示对应的科目分类。可选地,所述右侧上下文向量和所述左侧上下文向量通过下式表示:其中,wk表示第k个单词;wk+1表示第k+1个单词;表示k+1个单词的词向量;表示k-1个单词的词向量;Wr、Wrs、Wl、Wls为权重矩阵,Wr用于计算右上下文,Wrs用于计算右语义;Wl用于计算左上下文;Wls用于计算左语义;f为非线性激活函数;所述潜在语义向量yk通过下式表示:其中,为所述单词的向量表示;tanh表示带有tanh激活函数的全连接层;W表示全连接层的权重矩阵;b表示全连接层的预设常数。可选地,所述孪生网络中的每个匹配网络依次包括表示层、编码层和疏密层;所述孪生网络还包括与各个匹配网络中的疏密层相连的预测层;所述表示层与各个语言模型的输出层相连;所述编码层使用双向门控单元Bi-GRU模型;不同匹配网络中的编码层共享权重,且同时平行地对表示层输出的语言数据进行编码;通过所述疏密层投影至所述预测层;所述预测层用于计算不同疏密层投影的语言数据的能量函数,以确定是否等价。可选地,所述能量函数为二分类任务模型,所述二分类任务模型通过余弦相似度度量模型表示如下:其中,T1,T2分别表示不同的疏密层投影至所述预测层的语言数据。可选地,所述孪生网络通过预设的损失函数训练得到;在余弦相似度度量模型的输出结果指示等价时,所述损失函数通过下式表示:在余弦相似度度量模型的输出结果指示不等价时,所述损失函数通过下式表示:其中,m用于控制所述余弦相似度度量模型计算中的严苛度。第二方面,提供了一种用于知识图谱中节点和链接的多语言知识匹配装置,所述装置包括:语料获取模块,用于获取目标领域的多种语言类型的实体语料;语料分类模块,用于对于每种语言类型的实体语料,将所述实体语料输入与所述语言类型对应的分类模型,得到所述实体语料对应的科目分类,所述科目分类属于所述目标领域;所述知识分类模型基于循环卷积神经网络RCNN建立;语料识别模块,用于将所述实体语料输入与所述语言类型和所述科目分类对应的语言模型,得到所述实体语料对应的语言识别结果;语料匹配模块,用于将所述多种语言类型的实体语料对应的语言识别结果输入预先训练的孪生网络,将语言识别结果等价的不同语言类型的实体语料连接为一个整体;所述孪生网络包括每种语言类型对应的匹配网络。可选地,所述RCNN包括依次连接的循环卷积神经网络层、最大池化max-pooling层和输出层;所述循环卷积神经网络层用于递归地计算所述待匹配语言数据中每个单词的左上下文向量和右上下文向量;将所述左上下文向量、所述单词的单词向量和所述右上下文向量进行拼接,得到所述单词的向量表示;基于所述向量表示计算所述单词的潜在语义向量;所述max-pooling层用于获取各个潜在语义向量中的最重要元素,得到所述待匹配语言数据的文本向量表示;所述输出层用于确定文本向量表示对应的科目分类。可选地,所述孪生网络中的每个匹配网络依次包括表示层、编码层和疏密层;所述孪生网络还包括与各个匹配网络中的疏密层相连的预测层;所述表示层与各个语言模型的输出层相连;所述编码层使用双向门控单元Bi-GRU模型;不同匹配网络中的编码层共享权重,且同时平行地对表示层输出的语言数据进行编码;通过所述疏密层投影至所述预测层;所述预测层用于计算不同疏密层投影的语言数据的能量函数,以确定是否等价。本申请的有益效果在于:通过获取目标领域的多种语言类型的实体语料;对于每种语言类型的实体语料,将实体语料输入与语言类型对应的分类模型,得到实体语料对应的科目分类;将实体语料输入与语言类型和科目分类对应的语言模型,得到实体语料对应的语言识别结果;将多种语言类型的实体语料对应的语言识别结果输入预先训练的孪生网络,将语言识别结果等价的不同语言类型的实体语料连接为一个整体;可以解决专用知识图谱无法提供多语言知识的融合的问题;取代传统的图谱层面的直接匹配(存在诸多信息缺失的情况),从原始语料层级(原始信息来源)就进行匹配,可以实现多语言知识图谱的匹配,且可以收纳上下文关联信息从而提高匹配的准确率。另外,通过在建立知识图谱过程中,使用基于特定领域知识的预训练模型进行预分类,以选取更合适的专业预训练的语言模型,可以提高以文本本文档来自技高网...

【技术保护点】
1.一种用于知识图谱中节点和链接的多语言知识匹配方法,其特征在于,所述方法包括:/n获取目标领域的多种语言类型的实体语料;/n对于每种语言类型的实体语料,将所述实体语料输入与所述语言类型对应的分类模型,得到所述实体语料对应的科目分类,所述科目分类属于所述目标领域;所述知识分类模型基于循环卷积神经网络RCNN建立;/n将所述实体语料输入与所述语言类型和所述科目分类对应的语言模型,得到所述实体语料对应的语言识别结果;/n将所述多种语言类型的实体语料对应的语言识别结果输入预先训练的孪生网络,将语言识别结果等价的不同语言类型的实体语料连接为一个整体;所述孪生网络包括每种语言类型对应的匹配网络。/n

【技术特征摘要】
1.一种用于知识图谱中节点和链接的多语言知识匹配方法,其特征在于,所述方法包括:
获取目标领域的多种语言类型的实体语料;
对于每种语言类型的实体语料,将所述实体语料输入与所述语言类型对应的分类模型,得到所述实体语料对应的科目分类,所述科目分类属于所述目标领域;所述知识分类模型基于循环卷积神经网络RCNN建立;
将所述实体语料输入与所述语言类型和所述科目分类对应的语言模型,得到所述实体语料对应的语言识别结果;
将所述多种语言类型的实体语料对应的语言识别结果输入预先训练的孪生网络,将语言识别结果等价的不同语言类型的实体语料连接为一个整体;所述孪生网络包括每种语言类型对应的匹配网络。


2.根据权利要求1所述的方法,其特征在于,所述RCNN包括依次连接的循环卷积神经网络层、最大池化max-pooling层和输出层;
所述循环卷积神经网络层用于递归地计算所述待匹配语言数据中每个单词的左上下文向量和右上下文向量;将所述左上下文向量、所述单词的单词向量和所述右上下文向量进行拼接,得到所述单词的向量表示;基于所述向量表示计算所述单词的潜在语义向量;
所述max-pooling层用于获取各个潜在语义向量中的最重要元素,得到所述待匹配语言数据的文本向量表示;
所述输出层用于确定文本向量表示对应的科目分类。


3.根据权利要求2所述的方法,其特征在于,所述右侧上下文向量和所述左侧上下文向量通过下式表示:






其中,wk表示第k个单词;wk+1表示第k+1个单词;表示k+1个单词的词向量;表示k-1个单词的词向量;Wr、Wrs、Wl、Wls为权重矩阵,Wr用于计算右上下文,Wrs用于计算右语义;Wl用于计算左上下文;Wls用于计算左语义;f为非线性激活函数;
所述潜在语义向量yk通过下式表示:



其中,为所述单词的向量表示;tanh表示带有tanh激活函数的全连接层;W表示全连接层的权重矩阵;b表示全连接层的预设常数。


4.根据权利要求1所述的方法,其特征在于,所述孪生网络中的每个匹配网络依次包括表示层、编码层和疏密层;所述孪生网络还包括与各个匹配网络中的疏密层相连的预测层;
所述表示层与各个语言模型的输出层相连;
所述编码层使用双向门控单元Bi-GRU模型;不同匹配网络中的编码层共享权重,且同时平行地对表示层输出的语言数据进行编码;通过所述疏密层投影至所述预测层;
所述预测层用于计算不同疏密层投影的语言数据的能量函数,以确定是否等价。


5.根据权利要求4...

【专利技术属性】
技术研发人员:李刚民倪蘋李雨茗白旭明
申请(专利权)人:西交利物浦大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1