一种基于翻译模型的知识图谱表示方法技术

技术编号:15822731 阅读:143 留言:0更新日期:2017-07-15 04:55
本发明专利技术公开了一种用于表示知识谱图的表示模型方法,其涉及知识图谱表示技术领域,该方法包括以下步骤:1)利用数据采集模块抽取现有知识图谱中的数据并进行存储;2)利用预处理模块对抽取的数据进行结构化处理;3)利用特征抽取模块对结构化处理后的数据进行特征抽取,并利用GTrans模型对抽取的特征进行训练;4)利用训练好的结果通过所述知识图谱补全模块以及分类模块进行知识图谱预测和分类。本发明专利技术的GTrans模型为每一个关系构造了一个动态关系空间,能够为每一个关系表示空间提供灵活的关系权重,以及增强关系表示的能力并减少其他关系的干扰,灵活性显著增加。

【技术实现步骤摘要】
一种基于翻译模型的知识图谱表示方法
本专利技术涉及知识图谱表示
,具体涉及一种基于翻译模型的知识图谱表示方法。
技术介绍
目前在世界范围内已有的知识图谱表示方法主要集中在利用人工构建的特征和基于RDF框架表示的特征。这些特征表示方法在进行知识表示方面存在效率低下,算法复杂等问题。近几年来,利用深度学习的方法提出了一系列的知识表示方法,但当前的训练的知识表示方法多少存在一些模型复杂度较高,或者训练效率较低的问题。另外国内外的知识图谱表示方法代表性工作主要包括TransE(基于翻译的嵌入式模型)[1],TransH(基于超平面的嵌入式模型)[2],TransR(基于实体关系空间的嵌入式模型)[3],CTransR(基于聚类和实体关系空间的嵌入式模型)[3]和TransD(基于动态映射矩阵的嵌入式模型)[4]等方法.上述方法被统称为基于翻译的知识表示模型。基于翻译的模型认为,对每个三元组(h,r,t),其中的关系r是从头实体向量h到尾实体向量t的一个翻译操作,据此,Bordes等人率先提出了TransE(基于翻译的嵌入式模型)知识表示方法,TransE(基于翻译的嵌入式模型)通过欧氏距离上的偏移量来衡量计算实体之间的语义相似度,是一种简单基本的知识表示方法.它的优化目标是尽量使得h+r=t,因此相应模型学习的得分函数是fr(h,t)=||h+r-t||2,其中||h+r-t||2是h+r-t的2阶范数,即欧氏距离。TransH(基于超平面的嵌入式模型)方法建立了一个面向关系的超平面,它由一个法向量nr和翻译向量r表示,头实体向量h和尾实体向量t首先被投影到关系的超平面,得到向量h⊥=h-nrThnr和t⊥=t-nrThnr.因而,TransH(基于超平面的嵌入式模型)的优化目标变为h⊥+r=t⊥,相应的其得分函数修改为fr(h,t)=||h⊥+r-t⊥||2。TransR(基于实体关系空间的嵌入式模型)和CTransR(基于聚类和实体关系空间的嵌入式模型)希望通过建立一个映像矩阵Mr和一个向量r来表示每一个关系r,具体地,TransR(基于实体关系空间的嵌入式模型)将头实体向量h和尾实体向量t通过矩阵映射到关系向量r的层次上,得到Mrh+r=Mrt,也即TransR(基于实体关系空间的嵌入式模型)的优化目标,TransD(基于动态映射矩阵的嵌入式模型)以向量操作取代了TransR(基于实体关系空间的嵌入式模型)中的矩阵与向量的乘法操作,提高了算法效率。在实际应用中,TransE(基于翻译的嵌入式模型)[1]取得了较好的预测效果。在TransE(基于翻译的嵌入式模型)中,针对每个三元组(h,r,t),头实体向量h、尾实体向量t和关系r被表示为n维向量h(t)和r。嵌入向量t近似等于嵌入的h加上嵌入的r,即h+r≈t,TransE(基于翻译的嵌入式模型)能很好的处理一对一关系,但是在处理如一对N,N对一和N对N的复杂关系时有一个明显的缺点。具体来说,在处理复杂关系的过程中,会导致不同实体使用相同的向量,这是不符合实际情况的。TransH(基于超平面的嵌入式模型)[2]通过将头实体向量h和尾实体向量t映射到关系特异性超平面的超平面映射规则解决了复杂关系的问题。但是实体和关系是两种完全不同的概念,因此把它们放在同一向量空间是不正确的。TransR(基于实体关系空间的嵌入式模型)/CTransR(基于聚类和实体关系空间的嵌入式模型)[3]和TransD(基于动态映射矩阵的嵌入式模型)[4]提出了把实体和关系放在不同向量空间的两种新颖的模型,例如:实体空间和多重关系空间,TransR(基于实体关系空间的嵌入式模型)对每个关系r设定了一个映射矩阵Mr,然后用Mr将实体映射到关系空间中。在关系空间中,用Mr映射后的实体向量和关系向量r可以构造一个黄金三元组,这个三元组被描述为Mrh+r≈Mrt。作为对TransR(基于实体关系空间的嵌入式模型)的扩展,CTransR(基于聚类和实体关系空间的嵌入式模型)使用簇算法对TransE(基于翻译的嵌入式模型)的初始结果进行了分割,将每个关系r分为几个子关系rs。在某种程度上,使用rs替换r解决了每个关系的多义性问题。TransD(基于动态映射矩阵的嵌入式模型)使用两个向量ep和hp为每个实体-关系对构造了动态的映射矩阵。但TransR(基于实体关系空间的嵌入式模型)/CTransR(基于聚类和实体关系空间的嵌入式模型)的算法复杂度较高,没法在实际中应用。【1】BordesA,UsunierN,Garcia-DuranA,etal.Translatingembeddingsformodelingmulti-relationaldata[C]//ProcofNIPS.Cambridge,MA:MITPress,2013:2787–2795【2】WangZhen,ZhangJianwen,FengJianlin,etal.Knowledgegraphembeddingbytranslatingonhyperplanes[C]//ProcofAAAI.MenloPark,CA:AAAI,2014:1112–1119【3】LinYankai,LiuZhiyuan,SunMaosong,etal.Learningentityandrelationembeddingsforknowledgegraphcompletion[C]//ProcofAAAI.MenloPark,CA:AAAI,2015【4】JiGuoliang,HeShizhu,XuLiheng,etal.Knowledgegraphembeddingviadynamicmappingmatrix[C]//ProcofACL.StroudsburgPA:ACL,2045:687–696
技术实现思路
本专利技术的目的在于提出一种更为普遍适用的基于翻译模型的知识图谱表示方法,其提取了知识图谱潜在分布式特征,并进行知识图谱的补全与分类。为了实现本专利技术的目的,本专利技术的技术方案具体如下:一种基于翻译模型的知识图谱表示方法,该方法包括以下步骤:1)利用数据采集模块抽取现有知识图谱中的数据,利用分布式爬虫系统对互联网中存在的知识进行分布式的采集,并将其存储在分布式的图数据库中;2)利用预处理模块对抽取的数据进行结构化处理,所述预处理模块对采集到的数据进行过滤,主要分为实体关系去重、过滤掉不符合描述规范实体关系以及过滤存在非法字符的实体关系三部分;3)利用特征抽取模块对结构化处理后的数据进行特征抽取,抽取知识图谱中包含的实体、关系、属性,并将其用三元组的形式进行描述,并利用训练模块对抽取的特征进行训练;4)利用训练好的结果通过知识图谱补全模块以及分类模块进行知识图谱预测和分类,所述知识图谱补全模块以及分类模块对训练好的表示模型进行测试以验证模型的有效性,实现对知识图谱中缺失的实体或者关系进行推荐、以及对现有的三元组进行正确与否的判断。作为本专利技术技术方案的进一步改进,所述训练模块为GTrans模型(基于翻译的知识表示模型),所述GTrans模型构建具体包括模型构建过程和模型训练过程;所述模型构建过程包括实体空间构建和动态空间构建,所述实体空间本文档来自技高网
...
一种基于翻译模型的知识图谱表示方法

【技术保护点】
一种基于翻译模型的知识图谱表示方法,其特征在于,该方法包括以下步骤:1)利用数据采集模块抽取现有知识图谱中的数据,利用分布式爬虫系统对互联网中存在的知识进行分布式的采集,并将其存储在分布式的图数据库中;2)利用预处理模块对抽取的数据进行结构化处理,所述预处理模块对采集到的数据进行过滤,主要分为实体关系去重、过滤掉不符合描述规范实体关系以及过滤存在非法字符的实体关系三部分;3)利用特征抽取模块对结构化处理后的数据进行特征抽取,抽取知识图谱中包含的实体、关系、属性,并将其用三元组的形式进行描述,并利用训练模块对抽取的特征进行训练;4)利用训练好的结果通过知识图谱补全模块以及分类模块进行知识图谱预测和分类,所述知识图谱补全模块以及分类模块对训练好的表示模型进行测试以验证模型的有效性,实现对知识图谱中缺失的实体或者关系进行推荐、以及对现有的三元组进行正确与否的判断。

【技术特征摘要】
1.一种基于翻译模型的知识图谱表示方法,其特征在于,该方法包括以下步骤:1)利用数据采集模块抽取现有知识图谱中的数据,利用分布式爬虫系统对互联网中存在的知识进行分布式的采集,并将其存储在分布式的图数据库中;2)利用预处理模块对抽取的数据进行结构化处理,所述预处理模块对采集到的数据进行过滤,主要分为实体关系去重、过滤掉不符合描述规范实体关系以及过滤存在非法字符的实体关系三部分;3)利用特征抽取模块对结构化处理后的数据进行特征抽取,抽取知识图谱中包含的实体、关系、属性,并将其用三元组的形式进行描述,并利用训练模块对抽取的特征进行训练;4)利用训练好的结果通过知识图谱补全模块以及分类模块进行知识图谱预测和分类,所述知识图谱补全模块以及分类模块对训练好的表示模型进行测试以验证模型的有效性,实现对知识图谱中缺失的实体或者关系进行推荐、以及对现有的三元组进行正确与否的判断。2.如权利要求1所述的一种基于翻译模型的知识图谱表示方法,其特征在于,所...

【专利技术属性】
技术研发人员:谭真赵翔方阳郭澄葛斌肖卫东汤大权
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1