一种复杂网络下基于路径选择的表示学习方法技术

技术编号:19177735 阅读:40 留言:0更新日期:2018-10-17 00:26
本发明专利技术涉及一种复杂网络下基于路径选择的表示学习方法,属于自然语言处理以及知识图谱技术领域。本发明专利技术通过在知识图谱上进行规定起始点的随机游走,得到实体间的路径信息,通过训练一个分类器来对高置信度的路径进行筛选。然后利用知识表示的方法将实体,关系和路径用低维向量方式进行表示。通过向量间的运算判断实体之间的关系。本发明专利技术提出的方法解决了传统路径推理中路径冗余导致的推理效率低下,是一种可以充分利用路径信息到表示学习中的结合方式。

A representation learning method based on path selection in complex networks

The invention relates to a representation learning method based on Path Selection under complex network, belonging to the technical field of natural language processing and knowledge map. The invention obtains path information between entities by random walk of specified starting point on knowledge map, and selects paths with high confidence by training a classifier. Then, we use knowledge representation to represent entities, relationships and paths in low dimensional vectors. The relationship between entities is judged through operations between vectors. The method of the invention solves the inefficiency of reasoning caused by path redundancy in traditional path reasoning, and is a combination method which can make full use of path information to represent learning.

【技术实现步骤摘要】
一种复杂网络下基于路径选择的表示学习方法
本专利技术涉及一种基于路径选择的表示学习方法,尤其涉及一种复杂网络下基于路径选择的表示学习方法,属于知识图谱推理以及自然语言

技术介绍
知识图谱(KnowledgeGraph)是大型知识库的一种结构化的表示形式,目前国内外已经累积了很多大型知识图谱,国外比较权威的知识图谱包括Freebase,DBpedia和YAGO,国内较完备的知识库如CN-DBpedia,XLore等。这些KBs由大量三元组构成,知识图谱中的节点代表实体,节点之间的连线代表关系,每一个三元组描述一个事实,如(中国,的首都是,北京)。在知识图谱构建过程中,存在着知识补全问题。虽然一个普通的知识图谱就存在数百万的实体和数亿的关系,但相距完整还差很远。知识推理是利用现有知识图谱中的信息对缺失部分进行补全。在知识推理领域中,经典的基于路径推理是路径排序算法PRA(LaoN,CohenWW.Relationalretrievalusingacombinationofpath-constrainedrandomwalks[M].KluwerAcademicPublishers,2010),由Lao&Cohen于2010年提出。PRA算法可以看作是沿一组带有关系信息的边上的随机游走算法,它与经典随机游走算法相比,主要优势在于它加入了限制游走的边的类型信息。原始的PRA算法的主要思想是将关系对应的路径集合抽取出来作为推理的特征集合,游走概率作为特征值,然后构建分类器训练出每条路径对应的权值,作为推理的依据。另一个知识推理的经典算法是基于知识表示的TransE([6].BordesA,UsunierN,WestonJ,etal.Translatingembeddingsformodelingmulti-relationaldata[C]//InternationalConferenceonNeuralInformationProcessingSystems.CurranAssociatesInc.2013:2787-2795)算法,由Bordes于2013年提出,它假设存在隐式的向量空间,将知识图谱中的实体和关系在低维的空间里进行表达,得到连续的向量。将两个实体之间抽象的关系映射为两个向量之间的转换关系。正式的表示:对于任意三元组,都存在。TransE算法在推理方面表现良好,实现简单,但是对于一对多、多对一、多对多关系有着很大的缺陷。当前新的研究方向是将知识表示和路径推理算法相结合,例如PTransE算法(LinY,LiuZ,LuanH,etal.ModelingRelationPathsforRepresentationLearningofKnowledgeBases[J].ComputerScience,2015)但是PTransE的模型中对路径信息的处理略显简单,导致路径特征空间十分庞大,其中包含着大量冗余路径,冗余路径会降低模型的泛化能力,影响推理准确性。而且模型忽略了对缺失路径信息三元组的处理。针对上述问题,本专利技术致力于提出一种基于路径选择的表示学习方法。
技术实现思路
本专利技术的目的在于解决传统路径推理中路径冗余导致的推理效率低下,以及探寻一种可以充分利用路径信息到表示学习中的结合方式,提出了一种复杂网络下基于路径选择的表示学习方法。本专利技术的核心内容是:通过在知识图谱上进行规定起始点的随机游走,得到实体间的路径信息,这些路径信息存在大量的冗余数据,本文通过训练一个分类器来对高置信度的路径进行筛选;然后利用知识表示的方法将实体,关系和路径用低维向量方式进行表示,再通过向量间的运算判断实体之间的关系。所用符号定义和描述如下:知识图谱,记为T=<E,R,S>;其中,E表示实体集合,R代表关系集合,任意三元组,记为:(h,r,t),是集合S中的元素;其中,h为三元组(h,r,t)的头,t为三元组(h,r,t)的尾,且h,t∈E,关系r∈R;任意关系r对应的路径特征集合,记为Πr=(p1;...;pd),;其中,Πr是所有存在关系r的实体对间路径集合的并集,Πr中的路径p1;...;pd对应的权值为路径置信度,记为w=(w1,...,wd);在某种程度上路径特征可以视作是推理关系r的证据和现象,本专利技术将路径特征主要分为三种类型:强证据Sr(p),弱证据Wr(p),伴随现象Cr(p),Πr=Sr(p)∪Wr(p)∪Cr(p),d=k+m+o.;本专利技术通过以下步骤实现:步骤一、关键路径选择,包括对关键路径进行筛选以及计算对应路径置信度,具体包括如下子步骤:步骤1.1、路径特征抽取,具体为:将知识图谱视为无向图,以某实体为起点进行随机游走或者深度优先搜索,获取每一对三元组实体之间的路径集合;统计所有存在关系r的实体对作为分类器的样本,并取所有样本的路径集合的并集作为关系r的特征集合Πr=(p1;...;pd);步骤1.2、采用二值化的特征空间计算特征值,具体为:将存在关系r的样本中两个实体间的路径对应到特征集合Πr=(p1;...;pd)中,将路径在特征集合对应位置的特征值置为1,其他不存在的路径位置的特征值置为0,每一个样本会得到一个二值化特征向量;步骤1.2中采用二值化的特征空间而放弃原始PRA算法的原因为:原始PRA算法采用游走概率作为特征值,在知识图谱中两个节点之间的路径数量会很大,对推理有很强的置信度的路径可能游走到的概率并不是很高,所以路径置信度和路径游走概率没有很密切的相关性;并且在多篇相关文献中实验证明,使用随机游走概率对于推理效果没有明显的提高,而且在计算关系路径概率时时间开销过大,所以为了提高算法的效率我们决定采用二值化的特征空间,放弃原始PRA算法的游走概率特征值;步骤1.3、使用线性模型和非线性模型分别计算路径的置信度,得到两套路径的置信度向量;本步骤构造了路径特征的选取模型,在建立模型之前,首先需要解决负样本缺失的问题,提出一种构造负样本的方法:对于某一目标关系r,随机在其他关系中随机选择其中一个样本,如果该样本的两个实体之间不存在目标关系r,则将该样本作为负样本,正负样本个数比例为1:1;路径特征的选取模型包括线性模型和非线性模型;分别使用线性模型和非线性模型来对路径的置信度进行计算:其中,线性模型采用弹性网络的方法使用L1和L2范式对模型结构风险进行约束得到稀疏的权重向量,且可得到稳定的参数,使得模型具有一定的容错性;非线性模型采用集成学习中的随机森林方法,利用随机森林对多元共线性不敏感的特性使模型在缺失样本和特征相关的情况下依旧保证良好的效果;此外,非线性模型对在特征的选择和样本的使用上进行随机化,使得非线性模型具有很强的泛化能力;步骤二、表示学习,具体通过构造负例、优化目标函数得到关系和实体的向量;具体使用TransE的实体和关系向量化方法以及TransE的目标函数,保证头、尾和关系之间的联系;在此基础上使用路径信息进一步对模型进行优化,又包括如下子步骤:步骤2.1、构造负例,以等概率随机替换三元组的头、尾及关系得到不出现在数据集中的三元组数据集合;具体基于知识图谱的封闭世界假设,封闭世界假设认为知识图谱中的事实都是正确的,而不出现在图谱中的事实都认为是错本文档来自技高网
...

【技术保护点】
1.一种复杂网络下基于路径选择的表示学习方法,其特征在于:通过在知识图谱上进行规定起始点的随机游走,得到实体间的路径信息,这些路径信息存在大量的冗余数据,通过训练一个分类器来对高置信度的路径进行筛选;然后利用知识表示的方法将实体,关系和路径用低维向量方式进行表示,再通过向量间的运算判断实体之间的关系;所用符号定义和描述如下:知识图谱,记为T=<E,R,S>;其中,E表示实体集合,R代表关系集合,任意三元组,记为:(h,r,t),是集合S中的元素;其中,h为三元组(h,r,t)的头,t为三元组(h,r,t)的尾,且h,t∈E,关系r∈R;任意关系r对应的路径特征集合,记为Πr=(p1;...;pd),;其中,Πr是所有存在关系r的实体对间路径集合的并集,Πr中的路径p1;...;pd对应的权值为路径置信度,记为w=(w1,...,wd);在某种程度上路径特征可以视作是推理关系r的证据和现象,将路径特征主要分为三种类型:强证据Sr(p),弱证据Wr(p)以及伴随现象Cr(p),Πr=Sr(p)∪Wr(p)∪Cr(p),d=k+m+o.;通过以下步骤实现:步骤一、关键路径选择,包括对关键路径进行筛选以及计算对应路径置信度,具体包括如下子步骤:步骤1.1、路径特征抽取;步骤1.2、采用二值化的特征空间计算特征值;步骤1.3、使用线性模型和非线性模型分别计算路径的置信度,得到两套路径的置信度向量;步骤二、表示学习,具体通过构造负例、优化目标函数得到关系和实体的向量;具体使用TransE的实体和关系向量化方法以及TransE的目标函数,保证头、尾和关系之间的联系;在此基础上使用路径信息进一步对模型进行优化;步骤二又包括如下子步骤:步骤2.1、构造负例,以等概率随机替换三元组的头、尾及关系得到不出现在数据集中的三元组数据集合;具体基于知识图谱的封闭世界假设,封闭世界假设认为知识图谱中的事实都是正确的,而不出现在图谱中的事实都认为是错误的;所以利用知识库中的三元组(h,r,t)构造负例,以等概率随机替换三元组的头h,尾t,关系r得到不出现在数据集中的三元组数据集合:S‑={(h',r,t)}∪{(h,r',t)}∪{(h,r,t')};步骤2.2、构造由两部分组成的目标函数,目标函数包括关系三元组损失函数和路径三元组损失函数两部分;其中,关系三元组损失函数:对于一个三元组(h,r,t),损失函数的定义如下:E(h,r,t)=||h+r‑t||,ξ是预设大于0的正数来约束||h+r‑t||≤ξ,来确保r≈t‑h;路径三元组损失函数:对于长度为l的路径p=(r1,...,rl)路径向量由关系路径中的关系向量的相加得到,表示为:p=r1+...+rl;对于一个路径三元组(h,p,t)来说,损失函数定义如下:E(h,p,t)=||p‑(t‑h)||=||p‑r||=E(r,p),路径p作为推理关系r的有效规则之一,需要保证能量函数E(r,p)可以得到尽可能低的分数;确定模型目标函数(1)如下:...

【技术特征摘要】
2018.01.24 CN 20181006786621.一种复杂网络下基于路径选择的表示学习方法,其特征在于:通过在知识图谱上进行规定起始点的随机游走,得到实体间的路径信息,这些路径信息存在大量的冗余数据,通过训练一个分类器来对高置信度的路径进行筛选;然后利用知识表示的方法将实体,关系和路径用低维向量方式进行表示,再通过向量间的运算判断实体之间的关系;所用符号定义和描述如下:知识图谱,记为T=<E,R,S>;其中,E表示实体集合,R代表关系集合,任意三元组,记为:(h,r,t),是集合S中的元素;其中,h为三元组(h,r,t)的头,t为三元组(h,r,t)的尾,且h,t∈E,关系r∈R;任意关系r对应的路径特征集合,记为Πr=(p1;...;pd),;其中,Πr是所有存在关系r的实体对间路径集合的并集,Πr中的路径p1;...;pd对应的权值为路径置信度,记为w=(w1,...,wd);在某种程度上路径特征可以视作是推理关系r的证据和现象,将路径特征主要分为三种类型:强证据Sr(p),弱证据Wr(p)以及伴随现象Cr(p),Πr=Sr(p)∪Wr(p)∪Cr(p),d=k+m+o.;通过以下步骤实现:步骤一、关键路径选择,包括对关键路径进行筛选以及计算对应路径置信度,具体包括如下子步骤:步骤1.1、路径特征抽取;步骤1.2、采用二值化的特征空间计算特征值;步骤1.3、使用线性模型和非线性模型分别计算路径的置信度,得到两套路径的置信度向量;步骤二、表示学习,具体通过构造负例、优化目标函数得到关系和实体的向量;具体使用TransE的实体和关系向量化方法以及TransE的目标函数,保证头、尾和关系之间的联系;在此基础上使用路径信息进一步对模型进行优化;步骤二又包括如下子步骤:步骤2.1、构造负例,以等概率随机替换三元组的头、尾及关系得到不出现在数据集中的三元组数据集合;具体基于知识图谱的封闭世界假设,封闭世界假设认为知识图谱中的事实都是正确的,而不出现在图谱中的事实都认为是错误的;所以利用知识库中的三元组(h,r,t)构造负例,以等概率随机替换三元组的头h,尾t,关系r得到不出现在数据集中的三元组数据集合:S-={(h',r,t)}∪{(h,r',t)}∪{(h,r,t')};步骤2.2、构造由两部分组成的目标函数,目标函数包括关系三元组损失函数和路径三元组损失函数两部分;其中,关系三元组损失函数:对于一个三元组(h,r,t),损失函数的定义如下:E(h,r,t)=||h+r-t||,ξ是预设大于0的正数来约束||h+r-t||≤ξ,来确保r≈t-h;路径三元组损失函数:对于长度为l的路径p=(r1,...,rl)路径向量由关系路径中的关系向量的相加得到,表示为:p=r1+...+rl;对于一个路径三元组(h,p,t)来说,损失函数定义如下:E(h,p,t)=||p-(t-h)||=||p-r||=E(r,p),路径p作为推理关系r的有效规则之一...

【专利技术属性】
技术研发人员:刘琼昕龙航覃明帅黄河燕
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1