一种基于翻译模型的知识图谱表示方法技术

技术编号：15822731 阅读：143 留言：0更新日期：2017-07-15 04:55

本发明专利技术公开了一种用于表示知识谱图的表示模型方法，其涉及知识图谱表示技术领域，该方法包括以下步骤：1)利用数据采集模块抽取现有知识图谱中的数据并进行存储；2)利用预处理模块对抽取的数据进行结构化处理；3)利用特征抽取模块对结构化处理后的数据进行特征抽取，并利用GTrans模型对抽取的特征进行训练；4)利用训练好的结果通过所述知识图谱补全模块以及分类模块进行知识图谱预测和分类。本发明专利技术的GTrans模型为每一个关系构造了一个动态关系空间，能够为每一个关系表示空间提供灵活的关系权重，以及增强关系表示的能力并减少其他关系的干扰，灵活性显著增加。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于翻译模型的知识图谱表示方法
本专利技术涉及知识图谱表示
，具体涉及一种基于翻译模型的知识图谱表示方法。
技术介绍
目前在世界范围内已有的知识图谱表示方法主要集中在利用人工构建的特征和基于RDF框架表示的特征。这些特征表示方法在进行知识表示方面存在效率低下，算法复杂等问题。近几年来，利用深度学习的方法提出了一系列的知识表示方法，但当前的训练的知识表示方法多少存在一些模型复杂度较高，或者训练效率较低的问题。另外国内外的知识图谱表示方法代表性工作主要包括TransE(基于翻译的嵌入式模型)[1]，TransH(基于超平面的嵌入式模型)[2]，TransR(基于实体关系空间的嵌入式模型)[3]，CTransR(基于聚类和实体关系空间的嵌入式模型)[3]和TransD(基于动态映射矩阵的嵌入式模型)[4]等方法.上述方法被统称为基于翻译的知识表示模型。基于翻译的模型认为，对每个三元组(h,r,t)，其中的关系r是从头实体向量h到尾实体向量t的一个翻译操作，据此，Bordes等人率先提出了TransE(基于翻译的嵌入式模型)知识表示方法，TransE(基于翻译的嵌入式模型)通过欧氏距离上的偏移量来衡量计算实体之间的语义相似度，是一种简单基本的知识表示方法.它的优化目标是尽量使得h+r＝t，因此相应模型学习的得分函数是fr(h,t)＝||h+r-t||2，其中||h+r-t||2是h+r-t的2阶范数，即欧氏距离。TransH(基于超平面的嵌入式模型)方法建立了一个面向关系的超平面，它由一个法向量nr和翻译向量r表示，头实体向量h和尾实体向量t首先被投影到...
一种基于翻译模型的知识图谱表示方法

【技术保护点】
一种基于翻译模型的知识图谱表示方法，其特征在于，该方法包括以下步骤：1)利用数据采集模块抽取现有知识图谱中的数据，利用分布式爬虫系统对互联网中存在的知识进行分布式的采集，并将其存储在分布式的图数据库中；2)利用预处理模块对抽取的数据进行结构化处理，所述预处理模块对采集到的数据进行过滤，主要分为实体关系去重、过滤掉不符合描述规范实体关系以及过滤存在非法字符的实体关系三部分；3)利用特征抽取模块对结构化处理后的数据进行特征抽取，抽取知识图谱中包含的实体、关系、属性，并将其用三元组的形式进行描述，并利用训练模块对抽取的特征进行训练；4)利用训练好的结果通过知识图谱补全模块以及分类模块进行知识图谱预测和分类，所述知识图谱补全模块以及分类模块对训练好的表示模型进行测试以验证模型的有效性，实现对知识图谱中缺失的实体或者关系进行推荐、以及对现有的三元组进行正确与否的判断。

【技术特征摘要】
1.一种基于翻译模型的知识图谱表示方法，其特征在于，该方法包括以下步骤：1)利用数据采集模块抽取现有知识图谱中的数据，利用分布式爬虫系统对互联网中存在的知识进行分布式的采集，并将其存储在分布式的图数据库中；2)利用预处理模块对抽取的数据进行结构化处理，所述预处理模块对采集到的数据进行过滤，主要分为实体关系去重、过滤掉不符合描述规范实体关系以及过滤存在非法字符的实体关系三部分；3)利用特征抽取模块对结构化处理后的数据进行特征抽取，抽取知识图谱中包含的实体、关系、属性，并将其用三元组的形式进行描述，并利用训练模块对抽取的特征进行训练；4)利用训练好的结果通过知识图谱补全模块以及分类模块进行知识图谱预测和分类，所述知识图谱补全模块以及分类模块对训练好的表示模型进行测试以验证模型的有效性，实现对知识图谱中缺失的实体或者关系进行推荐、以及对现有的三元组进行正确与否的判断。2.如权利要求1所述的一种基于翻译模型的知识图谱表示方法，其特征在于，所...

【专利技术属性】
技术研发人员：谭真，赵翔，方阳，郭澄，葛斌，肖卫东，汤大权，
申请(专利权)人：中国人民解放军国防科学技术大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人