当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于图谱拓扑结构和实体文本描述的深度学习方法技术

技术编号:19215674 阅读:227 留言:0更新日期:2018-10-20 06:42
本发明专利技术提供一种基于图谱拓扑结构和实体文本描述的深度学习方法,该方法在解决知识图谱补全问题中,要补全的实体可能已经存在于知识图谱中(需发现),也可能不在知识图谱中(需生成)。对于需要发现的任务,可视作是封闭环境下的知识图补全问题,模型M1能够很好地“发现”这个实体;对于需要发现的任务,模型M2在注意力机制和循环卷积网络的帮助下,能够充分地发掘文本信息,为“生成”这个实体提供有力保障。这两个子模型的联合,能够解决开放世界知识图谱补全问题。

【技术实现步骤摘要】
一种基于图谱拓扑结构和实体文本描述的深度学习方法
本专利技术涉及文本处理算法领域,更具体地,涉及一种基于图谱拓扑结构和实体文本描述的深度学习方法。
技术介绍
知识图谱是(KnowledgeGraph)当前大数据时代的研究热点,自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。在知识图谱的研究中,知识图谱补全问题(KnowledgeGraphCompletion)占据了极为重要的位置。知识图谱补全的目标是将现有不完全的知识图谱尽可能地补全,以便丰富知识图谱包含的信息。目前,关于知识图谱补全的相关技术有:基于众包的知识图补全、基于知识图谱拓扑结构语义深度学习模型、基于关系推理规则的推理模型等。开放世界知识图谱补全问题(Open-WorldKnowledgeGraphCompletion)与封闭世界知识图谱补全问题(Close-WorldKnowledgeGraphCompletion)不同的是,它能够将现有知识图谱中不存在的实体加入到知识图谱中来,而非仅限于当前知识图谱中已存在的实体。开放世界知识图谱补全问题可形式化定义如下:给定一个不完备的知识图谱G=(E,R,T),其中E,R,T分别为头部实体集、关系集、尾部实体集,开放世界知识图谱补全问题的目标是找到这样的缺失三元组集合其中Ei和Ti分别是E和T的超集。
技术实现思路
本专利技术提供一种解决知识图谱补全的能力的基于图谱拓扑结构和实体文本描述的深度学习方法。为了达到上述技术效果,本专利技术的技术方案如下:一种基于图谱拓扑结构和实体文本描述的深度学习方法,包括以下步骤:S1:构建基于图拓扑结构的预测模型M1;S2:构建基于注意力机制的文本处理模型M2;S3:通过大量的训练数据训练该模型,得出两个模型内部的参数,将现有的知识图谱结构作为子模型M1输入,相关的文本信息作为子模型M2的输入,分别得到M1的输出和M2的输出;S4:根据词向量字典查询,即可得出预测实体的名称。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术提出基于图谱拓扑结构和实体文本描述的深度学习模型方法,该方法在解决知识图谱补全问题中,要补全的实体可能已经存在于知识图谱中(需发现),也可能不在知识图谱中(需生成)。对于需要发现的任务,可视作是封闭环境下的知识图补全问题,模型M1能够很好地“发现”这个实体;对于需要发现的任务,模型M2在注意力机制和循环卷积网络的帮助下,能够充分地发掘文本信息,为“生成”这个实体提供有力保障。这两个子模型的联合,能够解决开放世界知识图谱补全问题。附图说明图1为本专利技术流程图;图2为引入注意力机制的权重分配示意图;图3为模型M2处理三元组补全问题的流程示意图;具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1本专利技术提出了一种基于图谱拓扑结构和实体文本描述的深度学习方法,该方法基于深度学习理论,一方面,在实体文本信息处理上,加入注意力机制,引入循环卷积网络处理文本,能够更加充分地利用了知识图谱中实体的描述文本信息。另一方面,将知识图谱本身的拓扑结构所蕴含的丰富信息挖掘出来,从而提升模型对残缺三元组<h,r,?>或<?,r,t>中“?”预测的准确性,并且随着预测正确的三元组的不断加入,知识图谱的拓扑结构也将变得更加复杂,所能提供的信息也将更加丰富,从而该模型解决知识图谱补全的能力也将更为强大。总的来讲,该模型分为两个子模型的联合模型:基于图拓扑结构的预测模型M1和基于注意力机制的文本处理模型M2,如图1所示。M2处理的文本信息包括了实体描述文本、实体名称文本、关系名称文本、词向量字典等信息。模型构建好以后,通过大量的训练数据训练该模型,得出图1中w1和w2的值以及两个子模型内部的参数。待新问题来到时,将现有的知识图谱结构作为子模型M1输入,相关的文本信息作为子模型M2的输入,分别得到M1的输出O1和M2的输出O2,此步骤输出皆为一个固定维度的向量,预测实体名称的词向量W由公式:W=w1*N1+w2*N2+…+wn*Nn其中,N1=Wm11*O1+Wm21*O2N2=Wm12*O1+Wm22*O2N3=Wm13*O1+Wm23*O2…Nn=Wm1n*O1+Wm2n*O2得出。(其中,w1,w2,wn和Wm11,Wm21等为模型的参数)最后根据词向量字典查询,即可得出预测实体的名称(需要指出的是,这里用到的词向量字典既包含了模型M2输入中的词向量字典,也包含了模型M1训练出来的词向量)下面,分别介绍子模型M1、M2的实现方案。首先是子模型M1,该模型的思想可直接借鉴封闭环境假设下的知识图谱补全问题的语义模型,如TransE,HolE等。在TransE模型中,对于头部实体h,关系r,尾部实体t,基于公式:h+r=t(2)利用从知识图谱结构中得到的三元组,训练得到知识图谱中实体和关系的词向量表示,用于预测缺失的三元组。HolE在TranE思想下进行了改进,并在预测准确率上取得了较大的突破。在M1模型的实现上,可以用HolE的方法,对知识图谱中的信息进行处理,得到知识图谱中实体、关系的词向量表示。需注意的是,此部分词向量由知识图谱结构信息训练所得,跟基于语料的词向量如GlovE等可能才在较大差异。这一步训练所得的词向量与实体的对应关系,应保存成字典形式。其次,子模型M2实现部分。子模型M2的输入为文本信息,包括:实体名称、关系名称、实体描述文本以及预训练好的词向量字典如GloVe等。M2的实现可以借鉴图1中ConMask的结构,所不同的是,实体描述文本截取部分,不再是简单的截取指示词(IndicatorWord)之后的单词,而是以指示词为中心,截取一个大小为k的文本片段。这样可避免指示词出现过早导致的截取片段过长问题以及应对目标词(TargetWord)出现在指示词之前的情况。k的大小应设置自然语句的普遍长度为宜。借用上面的例子<MichelleObama,Spouse,?>,若设置k=13,此策略将截取实体“MichelleObama”的描述文本“MichelleLaVaughnRobinsonObamabornJanuary171964AmericanlawyerwriterwhoFirstLadyUnitedStatesmarried44thPresidentUnitedStates,BarackObama”中的片段为“writerwhoFirstLadyUnitedStatesmarried44thPresidentUnitedStatesBarackObama”。在截取到文本片段后,ConMask模型得到|kc|×200的矩阵(kc为截取文本长度,200为词向量维度),作为全卷积网络(FCN)的输入。我们的模型不同的是,在得到截取的文本之后,充分考虑单词之于关系、实体重要性之不同以及自然语言词序之间的关系,并且考虑片段中的单词与实体本文档来自技高网...

【技术保护点】
1.一种基于图谱拓扑结构和实体文本描述的深度学习方法,其特征在于,包括以下步骤:S1:构建基于图拓扑结构的预测模型M1;S2:构建基于注意力机制的文本处理模型M2;S3:通过大量的训练数据训练该模型,得出两个模型内部的参数,将现有的知识图谱结构作为子模型M1输入,相关的文本信息作为子模型M2的输入,分别得到M1的输出和M2的输出;S4:根据词向量字典查询,即可得出预测实体的名称。

【技术特征摘要】
1.一种基于图谱拓扑结构和实体文本描述的深度学习方法,其特征在于,包括以下步骤:S1:构建基于图拓扑结构的预测模型M1;S2:构建基于注意力机制的文本处理模型M2;S3:通过大量的训练数据训...

【专利技术属性】
技术研发人员:卓汉逵荣二虎
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1