一种基于二次主题空间投影的场景图谱低维空间嵌入方法技术

技术编号：21115831 阅读：22 留言：0更新日期：2019-05-16 09:00

本发明专利技术公开基于二次主题空间投影的场景图谱低维空间嵌入方法，包括步骤：输入场景图谱数据集的参数；输入正例并采样替换后反例；预处理得到实体的邻居集合、实体邻居数量；对实体的描述文本进行清洗得到文本描述集合；利用主题模型输出实体文本主题向量和实体邻居主题向量；利用翻译模型得到损失向量L；利用语义超平面构造方式和翻译模型结合的方式得到投影向量s；利用s将L投影到语义平面得到在投影平面的得分，并对得分乘以参数λ，加上L得到最终得分；集合正、反例得分残差，进行各层参数反向传播得到梯度，更新各层参数继续下一轮迭代。本发明专利技术首次公开融合了邻居上下文和实体描述信息多种异质信息，取得了场景图谱表示学习更好的效果。

A Low-Dimensional Space Embedding Method for Scene Atlas Based on Secondary Subject Space Projection

全部详细技术资料下载

【技术实现步骤摘要】
一种基于二次主题空间投影的场景图谱低维空间嵌入方法
本专利技术涉及场景图谱表示学习领域，公开一种基于二次主题空间投影的场景图谱低维空间嵌入方法。
技术介绍
场景图谱描述一幅图像中的物体以及物体之间关系的抽象的结构化表示。场景图谱的主要组成方式是头实体、关系、尾实体。场景图谱已经应用在很多人工智能领域，例如：图像智能问答、信息检索和个性化推荐等。但是在构建场景图谱的过程中，并不能确定出实体间所有的关系，所以场景图谱往往存在不完备的问题。嵌入式的知识表示方法近年来吸引了很多研究者的关注，对实体和关系向量化后，能很方便的应用到图谱补全和实体相似度计算等任务中。受到word2vec的启发，Bordes等人提出了TransE翻译模型，将图谱中的关系看作平移向量，将关系向量看作头实体向量和尾实体向量的翻译。Wang等人在TransE的基础上提出了TransH翻译模型。TransH解决了TransE在处理复杂关系的局限性问题，通过将实体投影到构造的关系超平面，使得相同实体在不同的关系时有不同的表示，从而解决知图谱中一对多、多对一、多对多等问题。同时融合多种异质信息是知识表示学习的另外一个挑战，融合多种信息能有效解决图谱中数据稀疏问题。Xie提出了DKRL，一个融合了实体描述信息的联合模型，利用卷积神经网络提取实体描述的特征，然后利用TransE的目标函数进行学习。这类联合模型采用的评价方法为链接预测和三元组分类。Xiao提出了SSP，也是融合实体描述信息的模型；与DKRL模型不同的是，SSP模型利用实体的描述信息构建一个语义超平面，将TransE得到的损失向量投影到文本...

【技术保护点】
1.一种基于二次主题空间投影的场景图谱低维空间嵌入方法，其特征在于，包括以下步骤：S1、输入场景图谱数据集的参数，包括三元组训练数据集K、实体集合E、关系集合R、最大迭代次数、实体和关系的向量维度；S2、依次输入正例，通过采样替换后得到它的反例，初始化实体和关系向量；S3、预处理得到每个实体e的邻居集合εn(e),得到实体邻居数量n；对实体的描述文本进行清洗，去除特殊字符、低频词和停用词，得到每个实体e的文本描述集合εd(e)；S4、将实体e的邻居集合、文本描述集合输入到主题模型中，输出实体文本主题向量de和实体邻居主题向量ne；S5、利用翻译模型得到损失向量L；利用语义超平面构造方式和翻译模型结合的方式得到投影向量s；S6、利用投影向量s将损失向量L投影到一个语义平面，得到在投影平面的得分；对投影平面的得分乘以参数λ，同时加上损失向量L，得到最终的得分；S7、对每个正例重复步骤S3‑S6，得到正例得分；对每个正例，分别替换头实体、关系和尾实体，采样得到反例，重复步骤S3‑S6得到反例得分；S8、通过目标函数集合正例得分和反例得分的残差，采用随机梯度下降的方法进行所述低维空间嵌入方法实...

【技术特征摘要】
1.一种基于二次主题空间投影的场景图谱低维空间嵌入方法，其特征在于，包括以下步骤：S1、输入场景图谱数据集的参数，包括三元组训练数据集K、实体集合E、关系集合R、最大迭代次数、实体和关系的向量维度；S2、依次输入正例，通过采样替换后得到它的反例，初始化实体和关系向量；S3、预处理得到每个实体e的邻居集合εn(e),得到实体邻居数量n；对实体的描述文本进行清洗，去除特殊字符、低频词和停用词，得到每个实体e的文本描述集合εd(e)；S4、将实体e的邻居集合、文本描述集合输入到主题模型中，输出实体文本主题向量de和实体邻居主题向量ne；S5、利用翻译模型得到损失向量L；利用语义超平面构造方式和翻译模型结合的方式得到投影向量s；S6、利用投影向量s将损失向量L投影到一个语义平面，得到在投影平面的得分；对投影平面的得分乘以参数λ，同时加上损失向量L，得到最终的得分；S7、对每个正例重复步骤S3-S6，得到正例得分；对每个正例，分别替换头实体、关系和尾实体，采样得到反例，重复步骤S3-S6得到反例得分；S8、通过目标函数集合正例得分和反例得分的残差，采用随机梯度下降的方法进行所述低维空间嵌入方法实施过程中各层参数的反向传播得到梯度，并更新各层参数，继续下一轮迭代。2.根据权利要求1所述的场景图谱低维空间嵌入方法，其特征在于，步骤S4中主题模型输出实体文本主题向量和实体邻居主题向量，过程如下：S41、输入每个实体对应的描述信息、最大迭代次数，确定文档主题数k，构造描述文档-词矩阵C、描述文档-主题矩阵S、主题-词矩阵W；S42、根据目标函数更新矩阵S和矩阵W，直到达到最大迭代次数，此时矩阵S对应每个实体的主题向量；S43、将每个实体的邻居上下文当作一个文档，重复步骤S41-S42，得到实体邻居主题向量。3.根据权利要求1所述的场景图谱低维空间嵌入方法，其特征在于，视觉三元组记为(h,r,t)，其中h表示头实体，t表示尾实体，r表示h和t之间的关系；步骤S5利用语义超平面构造方式和翻译模型结合的方式得到投影向量s，步骤包括：S51、对于三元组(h,r,t),头实体h对...

【专利技术属性】
技术研发人员：万海，李雷来，曾娟，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人