当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于图像场景图谱对齐的图像查询回答方法技术

技术编号:21200043 阅读:17 留言:0更新日期:2019-05-25 01:18
本发明专利技术提供的图像查询回答方法把图像场景图谱实体、属性和关系视觉向量与图像场景图谱实体、属性和关系向量进行对齐学习并且运用到图像查询回答中。关于上述的图像场景图谱对齐学习,首先,提取出图像场景图谱中的关系三元组和属性三元组,并根据TransE翻译模型或TransR翻译模型对图像场景图谱中的实体、关系、属性类型和属性进行图像场景图谱向量编码;然后,通过本发明专利技术提出的图像场景图谱实体、关系、属性视觉向量编码以及图像场景图谱实体、关系、属性实例化投影矩阵得到图像场景图谱实体、关系、属性实例化向量;最后用本发明专利技术提出的对齐函数进行对齐。为了进一步提高关系图像场景图谱实例化向量的质量,本发明专利技术提出了基于关系聚类的对齐方法。

An Image Query Answering Method Based on Image Scene Atlas Alignment

The image query and answer method provided by the invention aligns the image scene Atlas entities, attributes and relational visual vectors with the image scene Atlas entities, attributes and relational vectors, and applies them to the image query and answer. Regarding the above-mentioned alignment learning of image scene atlas, firstly, the relationship triple and attribute triple in image scene atlas are extracted, and the entities, relationships, attribute types and attributes in image scene atlas are encoded by the TransE translation model or the TransR translation model; secondly, the entities, relationships and attributes of image scene atlas are encoded by the proposed image scene Atlas according to the TransE translation model or the TransR translation model. Attribute visual vector coding and image scene Atlas entity, relationship, attribute instantiation projection matrix can obtain image scene Atlas entity, relationship, attribute instantiation vector; finally, alignment function proposed by the invention is used. In order to further improve the quality of instantiation vectors of relational image scene atlas, the present invention proposes an alignment method based on relational clustering.

【技术实现步骤摘要】
一种基于图像场景图谱对齐的图像查询回答方法
本专利技术涉及人工智能领域,更具体地,涉及一种基于图像场景图谱对齐的图像查询回答方法。
技术介绍
图像场景图谱是对一幅图像所描绘场景的抽象的、结构化的表示。具体来说,图像场景图谱以图像场景图谱关系三元组(头部实体,关系,尾部实体)和图像场景图谱属性三元组(实体,属性类型,属性)的方式记录了图像中的实体、实体的属性以及两个实体之间的关系,并且每个实体在图像中都有一个对应的包围盒。图像场景图谱最先由Johnson等人提出,近来在计算机视觉和人工智能领域受到了关注,并有相关的研究成果,例如:利用图像场景图谱检索图像;从事先外部语料库学习的词向量中检索实体的词向量来辅助视觉问答;利用物体检测器和关系检测器生成图像场景图谱。近年来,针对知识图谱的表示学习方法也受到了人们的关注。知识图谱可以表示成一系列的三元组(头部实体,关系,尾部实体),而知识图谱的表示学习是指把知识图谱中的实体和关系都表示为低维的实值向量。Bordes等人提出TransE翻译模型,学习目标是使得头部实体向量与关系向量的和与尾部向量接近;Lin等人提出TransR翻译模型,先把头部实体和尾部实体投影到关系空间后,再运用TransE翻译模型的学习目标进行学习。图像查询回答的目标是给出一组缺少头部实体、关系或者尾部实体的图像场景图谱关系三元组查询,(或缺少实体或属性的图像场景图谱属性三元组查询),利用图像信息得出缺少部分的答案。求解上述图像场景图谱三元组(包括关系三元组和属性三元组)查询具有重要的意义,因为任意一组图像场景图谱三元组查询都可以转化成一条自然语言的查询,是视觉问答的基础,但是目前仍没有关于图像场景图谱关系三元组查询的解决方案。
技术实现思路
本专利技术针对图像场景图谱三元组查询回答问题,提出一种基于图像场景图谱对齐的新方法,对图像场景图谱查询回答有较好的处理效果。为实现以上专利技术目的,采用的技术方案是:一种基于图像场景图谱对齐的图像查询回答方法,用于对关系三元组头部qh/尾部qt实体查询、关系三元组关系qr查询、属性三元组属性qe查询、属性三元组属性qa查询,包括以下步骤:记输入图像为I,图像场景图谱实体向量集合为矩阵E,关系向量集合为矩阵R,关系簇向量集合为矩阵Rc,属性向量集合为矩阵Α,属性类型向量集合为矩阵Z,实体实例化矩阵集合为ΠE,关系实例化矩阵集合为ΠR,属性实例化矩阵集合为ΠA;1.图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA的对齐训练方法如下:(1)输入图像场景图谱数据集,设定最大迭代次数;(2)随机初始化图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA;(3)取出图像场景图谱训练数据集中的所有图像场景图谱关系三元组和属性三元组,用TransE翻译模型或TransR翻译模型根据评分函数学习,得到E,R,Α,Z;(4)对于图片I中图像场景图谱实体正例e:(a)截取出实体e的包围盒βe,进行图像场景图谱实体视觉向量编码,得到图像场景图谱实体视觉向量ve;(b)从ΠE中取出e相对应的图像场景图谱实体实例化矩阵Me,并把ve经过Me实例化投影成为图像场景图谱实体实例化向量(c)从E中取出e相对应的图像场景图谱向量e,通过对齐函数计算与e之间的对齐分数,作为正例对齐分数;(d)负采样出一个反例e',重复(4b)-(4c)的步骤,得到反例对齐分数;(5)对于图片I中图像场景图谱实体h与实体t组成的关系正例r:(a)截取出实体h的包围盒βh以及实体t的包围盒,将βh和βt进行图像场景图谱关系视觉向量编码,得到图像场景图谱关系视觉向量sr;(b)从ΠR中取出r相对应的图像场景图谱关系实例化矩阵Mr,并把sr经过Mr实例化投影成为图像场景图谱关系实例化向量(c)从R中取出r相对应的图像场景图谱向量r,通过对齐函数计算与r之间的对齐分数,作为正例对齐分数;(d)负采样出一个反例r',重复(5b)-(5c)的步骤,得到反例对齐分数;(6)对于图片I中图像场景图谱某个实体的属性正例a(a)截取出属性a的包围盒βa的对应区域Ia,将Ia进行图像场景图谱属性视觉向量编码,得到图像场景图谱属性视觉向量ua;(b)从ΠA中取出a相对应的图像场景图谱实体实例化矩阵Ma,并把ua经过Ma实例化投影成为图像场景图谱实体实例化向量(c)从A中取出a相对应的图像场景图谱向量a,通过对齐函数计算与a之间的对齐分数,作为正例对齐分数;(d)负采样出一个反例a',重复(6b)-(6c)的步骤,得到反例对齐分数;(7)通过目标函数结合正例样本分数和反例样本分数得到网络残差,用随机梯度下降算法进行神经网络中各层参数的反向传播得到梯度值并迭代其参数;(8)重复(3)-(7)达到最大迭代次数;2.所述的图像场景图谱实体/关系/属性视觉向量编码,其方法描述如下:(1)图像场景图谱实体视觉向量编码:(a)对于图片I中图像场景图谱实体e的包围盒βe,截取出该包围盒的对应区域Ie;(b)将Ie通过卷积神经网络和外加的一层实体全连接神经网络层,得到图像场景图谱实体视觉向量ve;(2)图像场景图谱关系视觉向量编码:(a)对于图片I中图像场景图谱关系r对应的图像场景图谱头部实体h的包围盒βh=(xh,yh,wh,hh)和尾部实体t的包围盒βt=(xt,yt,wt,ht),其中x,y表示包围盒左上角的坐标,w,h表示包围盒的宽和高,用图像场景图谱实体视觉向量编码得到图像场景图谱实体视觉向量vh和vt,并且计算包围盒βh和βt的位置特征向量(b)将vh和vt串联成一个二通道的二维张量,用一层关系一维卷积神经网络层编码;(c)将(2)的结果与br串联成一个一通道的二维张量,通过一层关系全连接神经网络层,得到图像场景图谱实体视觉向量sr;(3)图像场景图谱属性视觉向量编码:(a)对于图片I中图像场景图谱某个实体的属性a包围盒βa,截取出该包围盒的对应区域Ia;(a)将Ia通过卷积神经网络和外加的一层属性全连接神经网络层,得到图像场景图谱属性视觉向量ua;3.图像场景图谱关系视觉向量编码中的神经网络以及R,Rc,ΠR的基于关系聚类的对齐训练方法如下:(1)用AffinityPropagation算法对图像场景图谱训练数据集中所有的位置特征向量br进行聚类,得到p个簇中心,并初始化由p个向量构成的矩阵Rc;(2)同1.(1)(3)随机初始化图像场景图谱关系视觉向量编码中的神经网络以及R,ΠR,ΠA,同时设定最大迭代次数;(4)同1.(3);(5)对于图片I中图像场景图谱实体h与实体t组成的关系r:(a)同1.(5a);(b)同1.(5b);(c)同1.(5c);(d)从R中取出r相对应的图像场景图谱向量r,从Rc中取出r相对应的图像场景图谱关系簇中心向量rc,通过关系聚类对齐函数计算与r、rc之间的对齐分数,作为正例对齐分数;(e)负采样出一个反例r',重复(5c)-(5d)的步骤,得到反例对齐分数;(6)同1.(7);(7)重复(4)-(6)达到最大迭代次数;4.评分函数、对齐函数、关系聚类对齐函数、目标函数描述如下:(1)评分函数:给定一个图像场景图谱关系三元组(h,r本文档来自技高网
...

【技术保护点】
1.一种基于图像场景图谱对齐的图像查询回答方法,用于对关系三元组头部qh/尾部qt实体查询、关系三元组关系qr查询、属性三元组属性qe查询、属性三元组属性qa查询,其特征在于:包括以下步骤:记输入图像为I,图像场景图谱实体向量集合为矩阵E,关系向量集合为矩阵R,关系簇向量集合为矩阵R

【技术特征摘要】
2018.03.19 CN 20181022664551.一种基于图像场景图谱对齐的图像查询回答方法,用于对关系三元组头部qh/尾部qt实体查询、关系三元组关系qr查询、属性三元组属性qe查询、属性三元组属性qa查询,其特征在于:包括以下步骤:记输入图像为I,图像场景图谱实体向量集合为矩阵E,关系向量集合为矩阵R,关系簇向量集合为矩阵Rc,属性向量集合为矩阵Α,属性类型向量集合为矩阵Z,实体实例化矩阵集合为ΠE,关系实例化矩阵集合为ΠR,属性实例化矩阵集合为ΠA;1.图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA的对齐训练方法如下:(1)输入图像场景图谱数据集,设定最大迭代次数;(2)随机初始化图像场景图谱实体、关系、属性视觉向量编码中的神经网络以及E,R,Α,Z,ΠE,ΠR,ΠA;(3)取出图像场景图谱训练数据集中的所有图像场景图谱关系三元组和属性三元组,用TransE翻译模型或TransR翻译模型根据评分函数学习,得到E,R,Α,Z;(4)对于图片I中图像场景图谱实体正例e:(a)截取出实体e的包围盒βe,进行图像场景图谱实体视觉向量编码,得到图像场景图谱实体视觉向量ve;(b)从ΠE中取出e相对应的图像场景图谱实体实例化矩阵Me,并把ve经过Me实例化投影成为图像场景图谱实体实例化向量(c)从E中取出e相对应的图像场景图谱向量e,通过对齐函数计算与e之间的对齐分数,作为正例对齐分数;(d)负采样出一个反例e',重复(4b)-(4c)的步骤,得到反例对齐分数;(5)对于图片I中图像场景图谱实体h与实体t组成的关系正例r:(a)截取出实体h的包围盒βh以及实体t的包围盒,将βh和βt进行图像场景图谱关系视觉向量编码,得到图像场景图谱关系视觉向量sr;(b)从ΠR中取出r相对应的图像场景图谱关系实例化矩阵Mr,并把sr经过Mr实例化投影成为图像场景图谱关系实例化向量(c)从R中取出r相对应的图像场景图谱向量r,通过对齐函数计算与r之间的对齐分数,作为正例对齐分数;(d)负采样出一个反例r',重复(5b)-(5c)的步骤,得到反例对齐分数;(6)对于图片I中图像场景图谱某个实体的属性正例a(a)截取出属性a的包围盒βa的对应区域Ia,将Ia进行图像场景图谱属性视觉向量编码,得到图像场景图谱属性视觉向量ua;(b)从ΠA中取出a相对应的图像场景图谱实体实例化矩阵Ma,并把ua经过Ma实例化投影成为图像场景图谱实体实例化向量(c)从A中取出a相对应的图像场景图谱向量a,通过对齐函数计算与a之间的对齐分数,作为正例对齐分数;(d)负采样出一个反例a',重复(6b)-(6c)的步骤,得到反例对齐分数;(7)通过目标函数结合正例样本分数和反例样本分数得到网络残差,用随机梯度下降算法进行神经网络中各层参数的反向传播得到梯度值并迭代其参数;(8)重复(3)-(7)达到最大迭代次数;2.所述的图像场景图谱实体/关系/属性视觉向量编码,其方法描述如下:(1)图像场景图谱实体视觉向量编码:(a)对于图片I中图像场景图谱实体e的包围盒βe,截取出该包围盒的对应区域Ie;(b)将Ie通过卷积神经网络和外加的一层实体全连接神经网络层,得到图像场景图谱实体视觉向量ve;(2)图像场景图谱关系视觉向量编码:(a)对于图片I中图像场景图谱关系r对应的图像场景图谱头部实体h的包围盒βh=(xh,yh,wh,hh)和尾部实体t的包围盒βt=(xt,yt,wt,ht),其中x,y表示包围盒左上角的坐标,w,h表示包围盒的宽和高,用图像场景图谱实体视觉向量编码得到图像场景图谱实体视觉向量vh和vt,并且计算包围盒βh和βt的位置特征向量(b)将vh和vt串联成一个二通道的二维张量,用一层关系一维卷积神经网络层编码;(c)将(2)的结果与br串联成一个一通道的二维张量,通过一层关系全连接神经网络层,得到图像场景图谱实体视觉向量sr;(3)图像场景图谱属性视觉向量编码:(a)对于图片I中图像场景图谱某个实体的属性a包围盒βa,截取出该包围盒的对应区域Ia;(a)将Ia通过卷积神经网络和外加的一层属性全连接神经网络层,得到图像场景图谱属性视觉向量ua;3.图像场景图谱关系视觉向量编码中的神经网络以及R,Rc,ΠR的基于关系聚类的对齐训练方法如下:(1)用AffinityPropagation算法对图像场景图谱训练数据集中所有的位置特征向量br进行聚类,得到p个簇中心,并初始化由p个向量构成的矩阵Rc;(2)同1.(1)(3)随机初始化图像场景图谱关系视觉向量编码中的神经网络以及R,ΠR,ΠA,同时设定最大迭代次数;(4)同1.(3);(5)对于图片I中图像场景图谱实体h与实体t组成的关系r:(a)同1.(5a);(b)同1.(5b);(c)同1.(5c);(d)从R中取出r相对应的图像场景图谱...

【专利技术属性】
技术研发人员:万海罗永豪
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1