当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于二次主题空间投影的场景图谱低维空间嵌入方法技术

技术编号:21115831 阅读:22 留言:0更新日期:2019-05-16 09:00
本发明专利技术公开基于二次主题空间投影的场景图谱低维空间嵌入方法,包括步骤:输入场景图谱数据集的参数;输入正例并采样替换后反例;预处理得到实体的邻居集合、实体邻居数量;对实体的描述文本进行清洗得到文本描述集合;利用主题模型输出实体文本主题向量和实体邻居主题向量;利用翻译模型得到损失向量L;利用语义超平面构造方式和翻译模型结合的方式得到投影向量s;利用s将L投影到语义平面得到在投影平面的得分,并对得分乘以参数λ,加上L得到最终得分;集合正、反例得分残差,进行各层参数反向传播得到梯度,更新各层参数继续下一轮迭代。本发明专利技术首次公开融合了邻居上下文和实体描述信息多种异质信息,取得了场景图谱表示学习更好的效果。

A Low-Dimensional Space Embedding Method for Scene Atlas Based on Secondary Subject Space Projection

【技术实现步骤摘要】
一种基于二次主题空间投影的场景图谱低维空间嵌入方法
本专利技术涉及场景图谱表示学习领域,公开一种基于二次主题空间投影的场景图谱低维空间嵌入方法。
技术介绍
场景图谱描述一幅图像中的物体以及物体之间关系的抽象的结构化表示。场景图谱的主要组成方式是头实体、关系、尾实体。场景图谱已经应用在很多人工智能领域,例如:图像智能问答、信息检索和个性化推荐等。但是在构建场景图谱的过程中,并不能确定出实体间所有的关系,所以场景图谱往往存在不完备的问题。嵌入式的知识表示方法近年来吸引了很多研究者的关注,对实体和关系向量化后,能很方便的应用到图谱补全和实体相似度计算等任务中。受到word2vec的启发,Bordes等人提出了TransE翻译模型,将图谱中的关系看作平移向量,将关系向量看作头实体向量和尾实体向量的翻译。Wang等人在TransE的基础上提出了TransH翻译模型。TransH解决了TransE在处理复杂关系的局限性问题,通过将实体投影到构造的关系超平面,使得相同实体在不同的关系时有不同的表示,从而解决知图谱中一对多、多对一、多对多等问题。同时融合多种异质信息是知识表示学习的另外一个挑战,融合多种信息能有效解决图谱中数据稀疏问题。Xie提出了DKRL,一个融合了实体描述信息的联合模型,利用卷积神经网络提取实体描述的特征,然后利用TransE的目标函数进行学习。这类联合模型采用的评价方法为链接预测和三元组分类。Xiao提出了SSP,也是融合实体描述信息的模型;与DKRL模型不同的是,SSP模型利用实体的描述信息构建一个语义超平面,将TransE得到的损失向量投影到文本语义超平面上,从另外一个角度利用文本信息,达到了融合异质文本描述的效果。链接预测指的是,给定训练集,通过将实体和关系映射为低维向量,以补全原先训练集中不存在的一些关系。测试方法是给定头实体、关系和尾实体中的两者,去测试三元组中未知的组成部分,例如给定(头实体,关系,?)、(?,关系,尾实体)或(头实体,?,尾实体)等三种情况,计算测例在所有替换头实体、尾实体或关系后得分的排名,最终获得三元组的分类。三元组的分类指的是,给定三元组(头实体,关系,尾实体),通过模型的目标函数计算得分来判断是正例还是反例。但是目前场景图谱表示学习方法存在不足,具体地:(1)目前场景图谱表示学习没有考虑如何引入其他开放数据源提高表示学习的质量,特别是与图像有关的文本数据,以及文本与图像有关的实体数据。(2)目前场景图谱表示学习没有考虑引入实体的邻居上下文,实体上下文蕴含了图谱中结构信息,实体描述文本与邻居上下文相结合的方式能有效的融合文本信息和邻居上下文信息等多种异质信息。(3)对于融合多种异质信息的场景知识图谱,目前还没有有效的可靠性验证方法。本专利技术提出用知识图谱的链接预测和三元组分类应用于多种异质信息场景知识图谱表示学习。
技术实现思路
为了解决现有技术所存在的问题,本专利技术提出一种基于二次主题空间投影的场景图谱低维空间嵌入方法,该方法把场景图谱中的实体和关系,实体的描述文本,以及实体邻居进行对齐学习,运用得到的低维向量来进行图谱补全和三元组分类,从而在场景图谱的链接预测和三元组分类这两个任务上都取得了更好的效果。本专利技术采用如下技术方案来实现:一种基于二次主题空间投影的场景图谱低维空间嵌入方法,包括以下步骤:S1、输入场景图谱数据集的参数,包括三元组训练数据集K、实体集合E、关系集合R、最大迭代次数、实体和关系的向量维度;S2、依次输入正例,通过采样替换后得到它的反例,初始化实体和关系向量;S3、预处理得到每个实体e的邻居集合εn(e),得到实体邻居数量n;对实体的描述文本进行清洗,去除特殊字符、低频词和停用词,得到每个实体e的文本描述集合εd(e);S4、优选地,将实体e的邻居集合、文本描述集合输入到主题模型中,输出实体文本主题向量de和实体邻居主题向量ne;S5、优选地,利用翻译模型得到损失向量L;利用语义超平面构造方式和翻译模型结合的方式得到投影向量s;S6、优选地,利用投影向量s将损失向量L投影到一个语义平面,得到在投影平面的得分;对投影平面的得分乘以参数λ,同时加上损失向量L,得到最终的得分;S7、对每个正例重复步骤S3-S6,得到正例得分;对每个正例,分别替换头实体、关系和尾实体,采样得到反例,重复步骤S3-S6得到反例得分;S8、通过目标函数集合正例得分和反例得分的残差,采用随机梯度下降的方法进行所述低维空间嵌入方法实施过程中各层参数的反向传播得到梯度,并更新各层参数,继续下一轮迭代。与现有技术相比,本专利技术取得了如下技术效果:1、针对实体描述联合场景图谱的问题,提出一种结合邻居上下文的新方法。该方法把场景图谱中的实体和关系,实体的描述文本,以及实体邻居进行对齐学习,运用得到的低维向量来进行图谱补全和三元组分类,从而在场景图谱的链接预测和三元组分类这两个任务上都取得了更好的效果。2、本专利技术嵌入方法涉及到的模型包括翻译模型、主题模型,其中主题模型能提取文本中的主题分布。本专利技术的创新点包括引入实体的邻居上下文,设计了实体描述文本和邻居上下文结合的方式,引入的实体上下文蕴含了图谱中结构信息,实体描述文本与邻居上下文相结合的方式能有效的融合文本信息和邻居上下文信息等多种异质信息。得到实体和关系的表示后,用于链接预测和三元组分类。综上,本专利技术提出的方法融合了邻居上下文和实体描述信息多种异质信息,已验证其有效性,并且在实际应用中取得了更好的效果。附图说明图1为本专利技术的嵌入方法流程图;图2为本专利技术中NMF主题模型的处理流程图;图3为本专利技术中语义超平面构造方式与TransE翻译模型结合的流程图;图4为本专利技术中评价方法之链接预测的流程图;图5为本专利技术中评价方法之三元组分类的流程图。具体实施方式下面结合附图和实施例对本专利技术嵌入方法做进一步详细的描述,但本专利技术的实施方式不限于此。本专利技术基于二次主题空间投影的场景图谱低维空间嵌入方法,首先根据TransE翻译模型对场景图谱中的实体和关系编码。本专利技术在这个步骤包括两种方式,分别是std和joint。两者的区别是文本和邻居的向量是采用预训练的方式,还是与翻译模型迭代进行。其次,以std为例,采用基于非负矩阵分解(NMF)的主题模型得到实体的主题向量;同时对于邻居的处理方式,采用本专利技术首次提出的对实体邻居上下文(与每个实体有关系存在的实体视作邻居上下文),同样采用NMF主题模型进行向量化。之后采用本专利技术提出的两种结合方式对两种异质信息进行结合。最后,在新的损失函数基础上,得到场景图谱中实体向量、关系向量、实体描述主题向量、实体邻居上下文的主题向量的输出。利用得到的输出,采用链接预测和三元组分类两个任务对得到的向量的表示能力进行评价。记输入的场景图谱为K,每个K中的三元组记为(h,r,t),其中h表示头实体,t表示尾实体,r表示h和t之间的关系。同时记K中的实体集为E,关系集为R,dh和dt分别是利用主题模型对实体的描述文本进行学习得到的主题向量。nh和nt分别是利用主题模型对实体的邻居下上文的主题向量。这里对实体的邻居上下文的定义如下:一个实体的邻居上下文指的是和这个实体相连接的实体,这反应的是一种结构信息。给定一个实体e,实体上下文本文档来自技高网
...

【技术保护点】
1.一种基于二次主题空间投影的场景图谱低维空间嵌入方法,其特征在于,包括以下步骤:S1、输入场景图谱数据集的参数,包括三元组训练数据集K、实体集合E、关系集合R、最大迭代次数、实体和关系的向量维度;S2、依次输入正例,通过采样替换后得到它的反例,初始化实体和关系向量;S3、预处理得到每个实体e的邻居集合εn(e),得到实体邻居数量n;对实体的描述文本进行清洗,去除特殊字符、低频词和停用词,得到每个实体e的文本描述集合εd(e);S4、将实体e的邻居集合、文本描述集合输入到主题模型中,输出实体文本主题向量de和实体邻居主题向量ne;S5、利用翻译模型得到损失向量L;利用语义超平面构造方式和翻译模型结合的方式得到投影向量s;S6、利用投影向量s将损失向量L投影到一个语义平面,得到在投影平面的得分;对投影平面的得分乘以参数λ,同时加上损失向量L,得到最终的得分;S7、对每个正例重复步骤S3‑S6,得到正例得分;对每个正例,分别替换头实体、关系和尾实体,采样得到反例,重复步骤S3‑S6得到反例得分;S8、通过目标函数集合正例得分和反例得分的残差,采用随机梯度下降的方法进行所述低维空间嵌入方法实施过程中各层参数的反向传播得到梯度,并更新各层参数,继续下一轮迭代。...

【技术特征摘要】
1.一种基于二次主题空间投影的场景图谱低维空间嵌入方法,其特征在于,包括以下步骤:S1、输入场景图谱数据集的参数,包括三元组训练数据集K、实体集合E、关系集合R、最大迭代次数、实体和关系的向量维度;S2、依次输入正例,通过采样替换后得到它的反例,初始化实体和关系向量;S3、预处理得到每个实体e的邻居集合εn(e),得到实体邻居数量n;对实体的描述文本进行清洗,去除特殊字符、低频词和停用词,得到每个实体e的文本描述集合εd(e);S4、将实体e的邻居集合、文本描述集合输入到主题模型中,输出实体文本主题向量de和实体邻居主题向量ne;S5、利用翻译模型得到损失向量L;利用语义超平面构造方式和翻译模型结合的方式得到投影向量s;S6、利用投影向量s将损失向量L投影到一个语义平面,得到在投影平面的得分;对投影平面的得分乘以参数λ,同时加上损失向量L,得到最终的得分;S7、对每个正例重复步骤S3-S6,得到正例得分;对每个正例,分别替换头实体、关系和尾实体,采样得到反例,重复步骤S3-S6得到反例得分;S8、通过目标函数集合正例得分和反例得分的残差,采用随机梯度下降的方法进行所述低维空间嵌入方法实施过程中各层参数的反向传播得到梯度,并更新各层参数,继续下一轮迭代。2.根据权利要求1所述的场景图谱低维空间嵌入方法,其特征在于,步骤S4中主题模型输出实体文本主题向量和实体邻居主题向量,过程如下:S41、输入每个实体对应的描述信息、最大迭代次数,确定文档主题数k,构造描述文档-词矩阵C、描述文档-主题矩阵S、主题-词矩阵W;S42、根据目标函数更新矩阵S和矩阵W,直到达到最大迭代次数,此时矩阵S对应每个实体的主题向量;S43、将每个实体的邻居上下文当作一个文档,重复步骤S41-S42,得到实体邻居主题向量。3.根据权利要求1所述的场景图谱低维空间嵌入方法,其特征在于,视觉三元组记为(h,r,t),其中h表示头实体,t表示尾实体,r表示h和t之间的关系;步骤S5利用语义超平面构造方式和翻译模型结合的方式得到投影向量s,步骤包括:S51、对于三元组(h,r,t),头实体h对...

【专利技术属性】
技术研发人员:万海李雷来曾娟
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1