一种面向跨媒体知识推理任务的知识表示方法技术

技术编号:23558948 阅读:62 留言:0更新日期:2020-03-25 04:21
本发明专利技术提供了一种面向跨媒体知识推理任务的知识表示方法,该方法包括:抽取跨媒体知识图谱的RDF三元组信息,将跨媒体知识图谱RDF三元组数据表示为初始的低维向量;利用最大间隔成本函数训练正负例三元组样本之间的向量表示,同时挖掘正负例三元组样本间的相似性(或差异性),添加到最大间隔成本函数中,提高模型知识推理识别相似实体的能力。本发明专利技术能够对基于RDF构建的跨媒体知识图谱三元组进行知识表示和知识推理,利用本发明专利技术学习到的知识推理模型进行实体链接和知识分类,能够提高跨媒体知识图谱中的链接预测和三元组分类的准确度。

A knowledge representation method for cross media knowledge reasoning task

【技术实现步骤摘要】
一种面向跨媒体知识推理任务的知识表示方法
本专利技术涉及一种面向跨媒体知识推理任务的知识表示方法,属于自然语言处理、人工智能等
,具体涉及一种针对跨媒体知识图谱中RDF三元组的知识推理方法,包括对知识图谱的链接预测和分类。
技术介绍
伴随着大数据时代的发展,各行各业的数据呈现爆炸式的增长,知识图谱(KnowledgeGraph)为高效利用这些海量的数据资源提供了一个强大的引擎。现在主流的知识图谱已经发展成为支撑众多人工智能(ArtificialIntelligence,简称AI)应用的核心,常见的AI应用包括智能搜索、自动问答、推荐系统、决策支持等。虽然在过去的十几年中,知识图谱取得了巨大的发展,但是还存在着一些局限,其中知识图谱不能包含所有的知识就是一个重大的局限,知识图谱的不完整性严重制约了AI领域中应用程序的效能,如何通过现有的知识补充完全知识图谱中所有的知识逐渐成为了知识图谱领域里亟待解决的问题之一。目前,知识图谱补全(KnowledgeGraphCompletion,KGC)是弥补这一局限的重要技术手段,知识图谱补全旨在补全知识图谱中不完整的知识,其中最重要的方法就是知识推理。近几年来,利用深度学习的方法提出了一些列的知识表示方法,但是这些知识表示方法在知识推理方面存在着推理精确度较低的问题,另外国内外现在主流的基于知识表示的知识图谱推理工作主要包括TransE(BordesA,UsunierN,GarcíaduránA,etal.TranslatingEmbeddingsforModelingMulti-relationalData[C].InternationalConferenceonNeuralInformationProcessingSystems.2013:2787-2795,基于翻译的嵌入式模型),TransH(WangZ,ZhangJ,FengJ,etal.KnowledgeGraphEmbeddingbyTranslatingonHyperplanes[C].Twenty-eighthAAAIConferenceonArtificialIntelligence.AAAIPress,2014:1112-1119,基于超平面的嵌入式模型),TransR(LinY,LiuZ,SunM,etal.Learningentityandrelationembeddingsforknowledgegraphcompletion[C].Twenty-ninthAAAIConferenceonArtificialIntelligence.2015,基于实体和关系空间的嵌入式模型),CTransR(LinY,LiuZ,SunM,etal.Learningentityandrelationembeddingsforknowledgegraphcompletion[C].Twenty-ninthAAAIConferenceonArtificialIntelligence.2015,基于聚类和实体关系空间的嵌入式模型)和TransD(JiG,HeS,XuL,etal.KnowledgeGraphEmbeddingviaDynamicMappingMatrix[C].MeetingoftheAssociationforComputationalLinguistics&theInternationalJointConferenceonNaturalLanguageProcessing.2015,基于动态映射矩阵的嵌入式模型),即知识图谱中包含着大量的事实三元组,将实体(包括概念、属性值)表示成知识图谱中的节点,节点之间的连接表示关系,以(头实体,关系,尾实体)(表示为(h,r,t))的形式存储,用网状的结构展示所获取的知识,对于每一个三元组(h,r,t),翻译模型将关系r看成是由头实体h到尾实体t的一个翻译操作,TransE模型将知识图谱中的实体和关系表示成低维嵌入式向量,将每一种关系看做是嵌入式空间中的一个转移,对于知识图谱中成立的三元组(h,r,t),基于表示的低维嵌入式头实体向量h与关系向量r的和接近尾实体向量t的值,即h+r≈t,否则远离,模型使用的得分函数为使用向量的2阶范数计算距离;TransE模型适用于处理一对一的关系,无法很好处理一对多,多对一和多对多的关系;TransH模型克服了一对多,多对一和多对多的关系的弊端,TransH模型将关系当做是在特定的关系超平面上的转移,使用超平面的法向量wr和关系转移向量dr表征,首先将头、尾实体映射到超平面中,得到映射后的实体然后构造获得h┷+dr≈t┷。针对TransE和TransH模型都是将实体和关系映射到同一个空间的现状,与现实中实体和关系具有不同的属性和类别的情况相矛盾,TransR和CTransR模型提出实体空间与关系空间不是同一个空间,它们同样都是将知识图谱中三元组实体和关系嵌入到不同的实体空间和关系空间中,然后通过Mr将实体从实体空间映射到关系空间中进行hr+r≈tr翻译学习。在实际的应用过程中,上述的TransE、TransH、TransR和CTransR模型在构造成本代价函数的过程中,只是随机性的替换了正例三元组的头、尾实体,并未考虑被替换的头尾实体与原来的头尾实体之间的关系,例如:在一个(美国,总统,某某某)的关系特换过程中,将“某某某”特换成“王王王”的错误程度远远低于将“某某某”特换成“张张张张”的错误程度,因为在表示的过程中,“某某某”与“王王王”学习到的表示向量的距离应该远远低于“某某某”与“张张张张”的表示向量的距离,因此,需要进一步考虑模型能够识别这样的替换实体的相似度(或差异度),能够正确辨别这些不同的三元组实例。
技术实现思路
为解决上述技术问题,本专利技术提供了一种面向跨媒体知识推理任务的知识表示方法,该面向跨媒体知识推理任务的知识表示方法提取了跨媒体知识图谱三元组的表示特征,并进行知识图谱的图谱补全(链接预测属于图谱补全中的一种)和三元组分类。本专利技术通过以下技术方案得以实现。本专利技术提供的一种面向跨媒体知识推理任务的知识表示方法,包括以下步骤:①跨媒体知识图谱三元组抽取:抽取跨媒体知识图谱中的数据,并转化为RDF三元组形式;②数据预处理:统计RDF三元组的头实体、关系和尾实体数据,进行数据预处理;③训练模型:输入训练模型,使用训练模型对三元组数据的特征进行训练,获取知识推理模型;④链接预测、三元组分类:输入跨媒体知识图谱链接预测和三元组分类模型,对知识推理模型进行链接预测以及分类。所述步骤②中,数据预处理为:分别将实体数据和关系数据保存,去除重复的实体、关系数据,过滤不符合规范的实体和关系数据,并去除非法字符。所述步骤④中,三元组分类模型用于判断三元组是否正确,跨媒体知识图谱链接预测模型用于补全图谱。所述步骤③中的训练模型为mTransH模型,mTransH模型的构建过程包括构建模型和训练模型。所述构建模型为对实体空间的构建和关系空间的构建,本文档来自技高网
...

【技术保护点】
1.一种面向跨媒体知识推理任务的知识表示方法,其特征在于:包括以下步骤:/n①跨媒体知识图谱三元组抽取:抽取跨媒体知识图谱中的数据,并转化为RDF三元组形式;/n②数据预处理:统计RDF三元组的头实体、关系和尾实体数据,进行数据预处理;/n③训练模型:输入训练模型,使用训练模型对三元组数据的特征进行训练,获取知识推理模型;/n④链接预测、三元组分类:输入跨媒体知识图谱链接预测和三元组分类模型,对知识推理模型进行链接预测以及分类。/n

【技术特征摘要】
1.一种面向跨媒体知识推理任务的知识表示方法,其特征在于:包括以下步骤:
①跨媒体知识图谱三元组抽取:抽取跨媒体知识图谱中的数据,并转化为RDF三元组形式;
②数据预处理:统计RDF三元组的头实体、关系和尾实体数据,进行数据预处理;
③训练模型:输入训练模型,使用训练模型对三元组数据的特征进行训练,获取知识推理模型;
④链接预测、三元组分类:输入跨媒体知识图谱链接预测和三元组分类模型,对知识推理模型进行链接预测以及分类。


2.如权利要求1所述的面向跨媒体知识推理任务的知识表示方法,其特征在于:所述步骤②中,数据预处理为:分别将实体数据和关系数据保存,去除重复的实体、关系数据,过滤不符合规范的实体和关系数据,并去除非法字符。


3.如权利要求1所述的面向跨媒体知识推理任务的知识表示方法,其特征在于:所述步骤④中,三元组分类模型用于判断三元组是否正确,跨媒体知识图谱链接预测模型用于补全图谱。


4.如权利要求1所述的面向跨媒体知识推理任务的知识表示...

【专利技术属性】
技术研发人员:昌攀曹扬王进刘汪洋
申请(专利权)人:中电科大数据研究院有限公司
类型:发明
国别省市:贵州;52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1