The invention relates to a representation learning method based on Path Selection under complex network, belonging to the technical field of natural language processing and knowledge map. The invention obtains path information between entities by random walk of specified starting point on knowledge map, and selects paths with high confidence by training a classifier. Then, we use knowledge representation to represent entities, relationships and paths in low dimensional vectors. The relationship between entities is judged through operations between vectors. The method of the invention solves the inefficiency of reasoning caused by path redundancy in traditional path reasoning, and is a combination method which can make full use of path information to represent learning.
【技术实现步骤摘要】
一种复杂网络下基于路径选择的表示学习方法
本专利技术涉及一种基于路径选择的表示学习方法,尤其涉及一种复杂网络下基于路径选择的表示学习方法,属于知识图谱推理以及自然语言
技术介绍
知识图谱(KnowledgeGraph)是大型知识库的一种结构化的表示形式,目前国内外已经累积了很多大型知识图谱,国外比较权威的知识图谱包括Freebase,DBpedia和YAGO,国内较完备的知识库如CN-DBpedia,XLore等。这些KBs由大量三元组构成,知识图谱中的节点代表实体,节点之间的连线代表关系,每一个三元组描述一个事实,如(中国,的首都是,北京)。在知识图谱构建过程中,存在着知识补全问题。虽然一个普通的知识图谱就存在数百万的实体和数亿的关系,但相距完整还差很远。知识推理是利用现有知识图谱中的信息对缺失部分进行补全。在知识推理领域中,经典的基于路径推理是路径排序算法PRA(LaoN,CohenWW.Relationalretrievalusingacombinationofpath-constrainedrandomwalks[M].KluwerAcademicPublishers,2010),由Lao&Cohen于2010年提出。PRA算法可以看作是沿一组带有关系信息的边上的随机游走算法,它与经典随机游走算法相比,主要优势在于它加入了限制游走的边的类型信息。原始的PRA算法的主要思想是将关系对应的路径集合抽取出来作为推理的特征集合,游走概率作为特征值,然后构建分类器训练出每条路径对应的权值,作为推理的依据。另一个知识推理的经典算法是基于知识表 ...
【技术保护点】
1.一种复杂网络下基于路径选择的表示学习方法,其特征在于:通过在知识图谱上进行规定起始点的随机游走,得到实体间的路径信息,这些路径信息存在大量的冗余数据,通过训练一个分类器来对高置信度的路径进行筛选;然后利用知识表示的方法将实体,关系和路径用低维向量方式进行表示,再通过向量间的运算判断实体之间的关系;所用符号定义和描述如下:知识图谱,记为T=<E,R,S>;其中,E表示实体集合,R代表关系集合,任意三元组,记为:(h,r,t),是集合S中的元素;其中,h为三元组(h,r,t)的头,t为三元组(h,r,t)的尾,且h,t∈E,关系r∈R;任意关系r对应的路径特征集合,记为Πr=(p1;...;pd),;其中,Πr是所有存在关系r的实体对间路径集合的并集,Πr中的路径p1;...;pd对应的权值为路径置信度,记为w=(w1,...,wd);在某种程度上路径特征可以视作是推理关系r的证据和现象,将路径特征主要分为三种类型:强证据Sr(p),弱证据Wr(p)以及伴随现象Cr(p),Πr=Sr(p)∪Wr(p)∪Cr(p),d=k+m+o.;通过以下步骤实现:步骤一、关键路径选择,包括对关键路径 ...
【技术特征摘要】
2018.01.24 CN 20181006786621.一种复杂网络下基于路径选择的表示学习方法,其特征在于:通过在知识图谱上进行规定起始点的随机游走,得到实体间的路径信息,这些路径信息存在大量的冗余数据,通过训练一个分类器来对高置信度的路径进行筛选;然后利用知识表示的方法将实体,关系和路径用低维向量方式进行表示,再通过向量间的运算判断实体之间的关系;所用符号定义和描述如下:知识图谱,记为T=<E,R,S>;其中,E表示实体集合,R代表关系集合,任意三元组,记为:(h,r,t),是集合S中的元素;其中,h为三元组(h,r,t)的头,t为三元组(h,r,t)的尾,且h,t∈E,关系r∈R;任意关系r对应的路径特征集合,记为Πr=(p1;...;pd),;其中,Πr是所有存在关系r的实体对间路径集合的并集,Πr中的路径p1;...;pd对应的权值为路径置信度,记为w=(w1,...,wd);在某种程度上路径特征可以视作是推理关系r的证据和现象,将路径特征主要分为三种类型:强证据Sr(p),弱证据Wr(p)以及伴随现象Cr(p),Πr=Sr(p)∪Wr(p)∪Cr(p),d=k+m+o.;通过以下步骤实现:步骤一、关键路径选择,包括对关键路径进行筛选以及计算对应路径置信度,具体包括如下子步骤:步骤1.1、路径特征抽取;步骤1.2、采用二值化的特征空间计算特征值;步骤1.3、使用线性模型和非线性模型分别计算路径的置信度,得到两套路径的置信度向量;步骤二、表示学习,具体通过构造负例、优化目标函数得到关系和实体的向量;具体使用TransE的实体和关系向量化方法以及TransE的目标函数,保证头、尾和关系之间的联系;在此基础上使用路径信息进一步对模型进行优化;步骤二又包括如下子步骤:步骤2.1、构造负例,以等概率随机替换三元组的头、尾及关系得到不出现在数据集中的三元组数据集合;具体基于知识图谱的封闭世界假设,封闭世界假设认为知识图谱中的事实都是正确的,而不出现在图谱中的事实都认为是错误的;所以利用知识库中的三元组(h,r,t)构造负例,以等概率随机替换三元组的头h,尾t,关系r得到不出现在数据集中的三元组数据集合:S-={(h',r,t)}∪{(h,r',t)}∪{(h,r,t')};步骤2.2、构造由两部分组成的目标函数,目标函数包括关系三元组损失函数和路径三元组损失函数两部分;其中,关系三元组损失函数:对于一个三元组(h,r,t),损失函数的定义如下:E(h,r,t)=||h+r-t||,ξ是预设大于0的正数来约束||h+r-t||≤ξ,来确保r≈t-h;路径三元组损失函数:对于长度为l的路径p=(r1,...,rl)路径向量由关系路径中的关系向量的相加得到,表示为:p=r1+...+rl;对于一个路径三元组(h,p,t)来说,损失函数定义如下:E(h,p,t)=||p-(t-h)||=||p-r||=E(r,p),路径p作为推理关系r的有效规则之一...
【专利技术属性】
技术研发人员:刘琼昕,龙航,覃明帅,黄河燕,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。