一种基于图谱表示学习的知识表示学习方法技术

技术编号:22261300 阅读:30 留言:0更新日期:2019-10-10 14:17
本发明专利技术公开了一种基于图谱表示学习的知识表示学习方法,其包括以下步骤:S1、基于知识图谱三元组和谓词获取标准图;S2、根据标准图获取知识图谱实体与关系的向量表示;S3、将深度学习分类任务的标签作为目标实体,根据知识图谱实体与关系的向量表示,基于相似性度量计算目标实体间的相似度,得到目标实体的图关联矩阵。本方法结合了实体之间的关系本身包含的信息,并将推理规则融合进来,因此容纳了大量的关联信息,使得学习得到的表示质量更佳。

A Knowledge Representation Learning Method Based on Map Representation Learning

【技术实现步骤摘要】
一种基于图谱表示学习的知识表示学习方法
本专利技术涉及知识图谱表示学习领域,具体涉及一种基于图谱表示学习的知识表示学习方法。
技术介绍
传统的知识图谱表示学习方法大多数都基于翻译模型,例如TransE模型将每个三元组实例中的关系看作从头实体到尾实体的翻译,通过数学形式上的约束来对实体和关系建模,将它们映射到相同的向量空间中,这类方法注重实体与实体之间通过关系进行转换的翻译过程,学习得到的表示保留的主要是存在直接关系的实体之间的联系,而没有直接关系的实体之间的语义关联信息丢失严重。后续有很多在此基础上的改进工作,例如将实体和关系映射到不同的空间、结合概念图挖掘语义关系等方法,这类知识图谱表示学习方法能够挖掘的关联关系受目标函数的限制,主要捕获的依然是实体之间的翻译关系,而实体本身的上下文语义关联信息通过这种方式仍然难以捕获。有些工作也尝试在知识图谱中采用图谱表示学习方法,但是这些工作忽略了实体之间的关系本身包含的信息,更没有考虑将推理规则(谓词)融合进来,因此丢失了大量的关联信息,导致学习得到的表示质量不佳。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种基于图谱表示学习的知识表示学习方法解决了现有知识图谱表示学习方法质量差的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:提供一种基于图谱表示学习的知识表示学习方法,其包括以下步骤:S1、基于知识图谱三元组和谓词获取标准图;S2、根据标准图获取知识图谱实体与关系的向量表示;S3、将深度学习分类任务的标签作为目标实体,根据知识图谱实体与关系的向量表示,基于相似性度量计算目标实体间的相似度,得到目标实体的图关联矩阵。进一步地,步骤S1的具体方法包括以下子步骤:S1-1、获取知识图谱(H,R,T)和谓词集合U,将((Hi,Rp,Tj),Uf,(Hi,Rq,Tj))表示为实体(Hi,Rp,Tj)与实体(Hi,Rq,Tj)关系之间的推理过程,即推理规则;其中H为头实体集合,Hi∈H;R为尾实体集合,Rp∈R,Rq∈R;T为关系集合,Tj∈T;S1-2、根据公式V=H∪T∪R∪U获取顶点集合V,将头实体、尾实体、关系和谓词均作为标签,按照顶点集合V中的位置统一编号得到标签编号查询表;S1-3、将用编号表示的三元组(IDH,IDR,IDT)拆分为二元组(IDH,IDR)和二元组(IDR,IDT);其中IDH,IDR和IDT分别为头实体、尾实体和关系的编号;S1-4、对于存在推理规则的实体,根据其编号生成二元组(IDR,IDU)和二元组(IDU,IDR');其中IDU为推理规则谓词的编号;IDR和IDR'分别为存在推理规则的两个实体的尾实体编号;S1-5、将得到的所有二元组作为标准图中顶点与顶点之间的关系,并将二元组构成的集合作为标准图的边集,得到标准图。进一步地,步骤S2的具体方法包括以下子步骤:S2-1、根据标准图构建邻接矩阵,并将邻接矩阵的每一行作为一个顶点的初始向量表示;S2-2、采用自编码器对顶点的初始向量表示进行重构得到顶点的低维向量表示,即知识图谱实体与关系的向量表示,并将所有顶点的低维向量表示组合成矩阵Y;其中自编码器包括编码部分和解码部分,编码部分的表达式为:Yi(1)=σ(W(1)Xi+b(1))Yi(k)=σ(W(k)Yi(k-1)+b(k)),k=2,3,...,KK为编码部分中神经网络的层数;W(k)为第k层神经网络的权重;b(k)为第k层神经网络的偏置;σ(·)为激活函数;Xi为第i个顶点的初始向量表示,即邻接矩阵的第i行;Yi(1)为输入为第i个顶点的初始向量对应的第1层神经网络的输出;Yi(k-1)为输入为第i个顶点的初始向量对应的第k-1层神经网络的输出;Yi(k)为输入为第i个顶点的初始向量对应的第k层神经网络的输出;对于第i个顶点的初始向量,编码部分的最终输出为Yi(K),Yi(K)∈Y;解码部分通过最小化解码损失并在损失函数中增加拉普拉斯映射作为约束条件来训练自编码器,解码部分为编码部分的逆操作,用于还原编码内容。进一步地,步骤S3的具体方法包括以下子步骤:S3-1、将深度学习分类任务的标签作为目标实体,获取目标实体的标签集L={l1,l2,...,lM},其中M为标签总数;lm为第m类标签,m=1,2,...,M;S3-2、根据标签集L中的各个标签从标签编号查询表获取对应的标签编号;S3-3、根据步骤S3-2中获取的标签编号从矩阵Y中获取所有对应标签的向量;S3-4、计算步骤S3-3中得到的向量之间的欧氏距离,进而得到标签集L中各个标签之间的相似度,并将标签li与标签lj之间的相似度表示为三元组(li,lj,sij),其中sij为标签li与标签lj之间的相似度;S3-5、以目标实体中的标签为顶点、标签之间的相似度为边构建概率图GL;S3-6、将概率图GL表示为邻接矩阵G,对邻接矩阵G的每一行进行归一化获取一阶转移矩阵AL1,进而得到t阶转移矩阵ALt;S3-7、根据公式获取目标实体的图关联矩阵GRM;其中w(t)为递减权重函数。本专利技术的有益效果为:本专利技术给出了将知识图谱转化为标准图的途径,将知识图谱中的实体关系均视为标准图中的顶点,此外还采用谓词扩充关联关系,进一步丰富顶点上下文,以便于应用图谱表示学习模型学习得到质量更好的向量表示,将深度学习分类任务的标签作为目标实体,根据知识图谱实体与关系的向量表示,基于相似性度量计算目标实体间的相似度,得到目标实体的图关联矩阵。本方法结合了实体之间的关系本身包含的信息,并将推理规则(谓词)融合进来,因此容纳了大量的关联信息,使得学习得到的表示质量更佳。附图说明图1为本专利技术的流程示意图。具体实施方式下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。如图1所示,该基于图谱表示学习的知识表示学习方法包括以下步骤:S1、构建转化层,基于知识图谱三元组和谓词获取标准图;S2、构建模型层,根据标准图获取知识图谱实体与关系的向量表示;S3、构建接口层,将深度学习分类任务的标签作为目标实体,根据知识图谱实体与关系的向量表示,基于相似性度量计算目标实体间的相似度,得到目标实体的图关联矩阵。步骤S1的具体方法包括以下子步骤:S1-1、获取知识图谱(H,R,T)和谓词集合U,将((Hi,Rp,Tj),Uf,(Hi,Rq,Tj))表示为实体(Hi,Rp,Tj)与实体(Hi,Rq,Tj)关系之间的推理过程,即推理规则;其中H为头实体集合,Hi∈H;R为尾实体集合,Rp∈R,Rq∈R;T为关系集合,Tj∈T;S1-2、根据公式V=H∪T∪R∪U获取顶点集合V,将头实体、尾实体、关系和谓词均作为标签,按照顶点集合V中的位置统一编号得到标签编号查询表;S1-3、将用编号表示的三元组(IDH,IDR,IDT)拆分为二元组(IDH,IDR)和二元组(IDR,IDT);其中IDH,IDR和IDT分别为头实体、尾实体和关系的编号;S1-4、对于存在推理规则的实体,根据其编号生成二元组(I本文档来自技高网
...

【技术保护点】
1.一种基于图谱表示学习的知识表示学习方法,其特征在于,包括以下步骤:S1、基于知识图谱三元组和谓词获取标准图;S2、根据标准图获取知识图谱实体与关系的向量表示;S3、将深度学习分类任务的标签作为目标实体,根据知识图谱实体与关系的向量表示,基于相似性度量计算目标实体间的相似度,得到目标实体的图关联矩阵。

【技术特征摘要】
1.一种基于图谱表示学习的知识表示学习方法,其特征在于,包括以下步骤:S1、基于知识图谱三元组和谓词获取标准图;S2、根据标准图获取知识图谱实体与关系的向量表示;S3、将深度学习分类任务的标签作为目标实体,根据知识图谱实体与关系的向量表示,基于相似性度量计算目标实体间的相似度,得到目标实体的图关联矩阵。2.根据权利要求1所述的基于图谱表示学习的知识表示学习方法,其特征在于,所述步骤S1的具体方法包括以下子步骤:S1-1、获取知识图谱(H,R,T)和谓词集合U,将((Hi,Rp,Tj),Uf,(Hi,Rq,Tj))表示为实体(Hi,Rp,Tj)与实体(Hi,Rq,Tj)关系之间的推理过程,即推理规则;其中H为头实体集合,Hi∈H;R为尾实体集合,Rp∈R,Rq∈R;T为关系集合,Tj∈T;S1-2、根据公式V=H∪T∪R∪U获取顶点集合V,将头实体、尾实体、关系和谓词均作为标签,按照顶点集合V中的位置统一编号得到标签编号查询表;S1-3、将用编号表示的三元组(IDH,IDR,IDT)拆分为二元组(IDH,IDR)和二元组(IDR,IDT);其中IDH,IDR和IDT分别为头实体、尾实体和关系的编号;S1-4、对于存在推理规则的实体,根据其编号生成二元组(IDR,IDU)和二元组(IDU,IDR');其中IDU为推理规则谓词的编号;IDR和IDR'分别为存在推理规则的两个实体的尾实体编号;S1-5、将得到的所有二元组作为标准图中顶点与顶点之间的关系,并将二元组构成的集合作为标准图的边集,得到标准图。3.根据权利要求2所述的基于图谱表示学习的知识表示学习方法,其特征在于,所述步骤S2的具体方法包括以下子步骤:S2-1、根据标准图构建邻接矩阵,并将邻接矩阵的每一行作为一个顶点的初始向量表示;S2-2、采用自编码器对顶点的初始向量表示进行重构得到顶点的低维向量表示,即知识图谱实体与关系的向量表示,并将所有顶点的低维向量表示组合成矩...

【专利技术属性】
技术研发人员:刘鑫宇王庆先
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1