【技术实现步骤摘要】
基于问题引导和对象间差异建模的视觉问答方法及系统
[0001]本专利技术涉及视觉问答
,尤其涉及一种基于问题引导和对象间差异建模的视觉问答方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]视觉问答技术(Visual Question Answering,VQA)是一个结合计算机视觉和自然语言处理两大技术的研究方向。视觉问答技术指根据给定的一张图像和一个与图像相关的自然语言问题,预测出关于图像对应问题的答案。
[0004]现有的视觉问答技术有:
[0005]1、视觉问答
[0006]传统的VQA框架通常使用预先训练的卷积神经网络从图像中提取视觉特征,用递归卷积神经网络编码问题特征,图像和问题被编码并表示为全局特征。视觉问答工作主要从四个方面来探索改进基本模型的性能。多模态嵌入模型如基于双线性池化的模型,专注于图片和问题的特征融合。基于注意力的模型如堆叠注意力,通过多次查询图片渐进地推断答案。基于知识的模型尝试利用高 ...
【技术保护点】
【技术特征摘要】
1.基于问题引导和对象间差异建模的视觉问答方法,其特征在于,包括:获取待检测图像和问题,提取待检测图像中目标区域对象的视觉特征和问题中的词向量;基于词向量,构建问题表示向量;为问题表示向量中的每个词向量分配不同的权重值,得到词注意表示向量;分析问题表示向量中词与词之间的隐含语义关系,得到词之间的权重;基于词之间的权重和词向量,构建词关系表示向量;基于词注意表示向量和词关系表示向量,构建问题表示向量;基于视觉特征,在细粒度问题的指导下,比较目标区域对象的差异,得到图形表示向量;基于问题表示向量和图形表示向量,预测待检测图像对应问题的答案。2.根据权利要求1所述的基于问题引导和对象间差异建模的视觉问答方法,其特征在于,所述分析问题表示向量中词与词之间的隐含语义关系采用以下公式:采用点积运算计算第i个单词和第j个单词之间的相关关系m
i,j
:其中,W1,b1,W2,b2都是学习到的参数,m
i,j
代表两个词之间的接近度,h
i
为词i的表示,h
j
为词j的表示。3.根据权利要求1所述的基于问题引导和对象间差异建模的视觉问答方法,其特征在于,根据第i个单词和第j个单词之间的相关关系m
ij
,计算第i个单词和第j个单词之间的权重。4.根据权利要求1所述的基于问题引导和对象间差异建模的视觉问答方法,其特征在于,所述基于视觉特征,在细粒度问题的指导下,比较目标区域对象的差异,得到图形表示向量的过程包括:基于两个不同的目标区域对象在问题引导下的比较结果,采用注意力机制,得到两个不同的目标区域对象的问题特定关系;基于所述问题特定关系,采用注意力图形卷积层,构建图形表示向量。5.根据权利要求1所述的基于问题引导和对象间差异建模的视觉问答方法,其特征在于,所述基于问题表示向量和图形表示向量,预测待检测图像对应问题的答案的过程包括:采用多模态融合推理模型,将问题表示向量和图形表示向量进行融...
【专利技术属性】
技术研发人员:耿玉水,皇甫敏畅,梁虎,赵晶,
申请(专利权)人:齐鲁工业大学山东省科学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。