一种基于多模态融合和结构性控制的视觉问答方法技术

技术编号:28978694 阅读:32 留言:0更新日期:2021-06-23 09:24
本发明专利技术涉及视觉问答技术领域,提供一种基于多模态融合和结构性控制的视觉问答方法,包括以下步骤:S1:计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量;S2:将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络,计算多模态信息融合特征向量;S3:对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制,缩小多模态信息融合特征向量和答案语义特征向量的概率分布;S4:根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。本发明专利技术增强了视觉问答方法的泛化性,提高了视觉问答方法的性能。

【技术实现步骤摘要】
一种基于多模态融合和结构性控制的视觉问答方法
本专利技术涉及视觉问答
,具体涉及一种基于多模态融合和结构性控制的视觉问答方法。
技术介绍
现今视觉问答技术(VisualQuestionAnswering,VQA)是一个结合计算机视觉和自然语言处理两大技术的研究方向,可用于图像检索、帮助视力受损人群获取信息和提升人机交互体验等方面。视觉问答技术指根据给定的一张图像和一个与图像相关的自然语言问题,预测出关于图像对应问题的答案。传统的视觉问答方法通常通过卷积网络提取图像的全局视觉特征向量,而忽略了视觉特征向量的局部空间信息,同时通过特征向量乘法或拼接等方式对问题语义特征向量和视觉特征向量进行特征向量融合,忽略了视觉特征向量和问题语义特征向量之间的联系,上述问题将会导致模型对基于局部图像特征向量的自然语言问题预测效果欠佳,且存在泛化能力较弱的问题。针对上述问题,基于注意力机制的视觉问答方法将视觉特征向量与问题语义特征向量输入到相同空间,反复迭代计算图像空间的注意力权值分布过程,以获取图像中与问题相关的特征向量空间信息。此外,传统的视觉问答方法未充分考虑答案语义之间的相似性,以及图像、问题和答案三者语义之间的关联性。近年来,视觉问答领域中运用了深度学习模型,但尚未出现与生成模型相关的应用方法。变分自编码器(VariationalAuto-Encoder,VAE)是一种生成模型,其在常规的自编码器的基础上,对编码器的结果加上高斯噪声,使得解码器网络能够对噪声具有鲁棒性。因此,通过VAE拟合样本答案特征向量的分布,进而实现正确答案与错误答案之间的结构性控制。中国专利技术专利公开号CN110377710A(公开日为2019年10月25日),公开了一种基于多模态融合的视觉问答融合增强方法。该专利技术步骤如下:1、利用GRU结构构建时序模型,获得问题的特征向量表示学习、利用从FasterR-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征向量表示;2、基于注意力模型Transformer进行多模态推理,引入注意力模型对图片-问题-答案这个三元组进行多模态融合,建立推理关系;3、针对不同的隐含关系有不同的推理过程和结果输出,再根据这些结果输出来进行标签分布回归学习,来确定答案。该专利技术基于特定的图片和问题得到答案直接应用于服务于盲人的应用中,能够帮助盲人或者视觉障碍者更好地感知周围环境,也应用于图片检索系统,提高图片检索的准确性和多样性。但是现有技术存在视觉特征向量空间信息丢失和在多路分类过程答案之间语义关系被消除的缺陷。
技术实现思路
本专利技术的目的是解决现有技术中视觉特征向量空间信息丢失和在多路分类过程答案之间语义关系被消除的缺陷,提供一种包括协同注意力机制、多模态信息融合、结构性控制的视觉问答方法。为了实现上述目的,本专利技术提供了一种基于多模态融合和结构性控制的视觉问答方法。视觉问答方法需要进行视觉问答的训练,视觉问答的训练需要图像数据集、问题数据集、答案数据集,并从中选取图像样本及其对应的问题样本、答案样本,得到图像样本数据集、问题样本数据集、答案样本数据集。一种基于多模态融合和结构性控制的视觉问答方法,包括以下步骤:步骤S1:计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量;步骤S2:将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络,计算多模态信息融合特征向量;步骤S3:对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制,缩小多模态信息融合特征向量和答案语义特征向量的概率分布;步骤S4:根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。作为优选方案:步骤S1中,训练时输入的图像样本数据集和问题样本数据集构成的并集为其中V=[v1,v2,…,vm]为所述并集的视觉特征向量组,d为图像样本中的区域数,l为每个区域的特征向量的维度,Q=[q1,q2,…,qm]为所述并集的问题语义特征向量组,r为样本中每个问题语义特征向量的维度,m为数据集中样本的总数,视觉特征向量v是通过152层的残差网络ResNet中最后一个卷积层提取的特征向量矩阵,问题语义特征向量q则是在词表示的全局向量GloVe嵌入的基础上使用双向LSTM,即bi-LSTM,提取的特征向量。作为优选方案:步骤S1中,计算答案样本数据集中的答案语义特征向量,答案语义特征向量分为正确答案语义特征向量和错误答案语义特征向量,先使用词表示的全局向量GloVe获取答案的嵌入向量;然后将答案特征向量输入到指定的多层感知器模型gφ(answers)获取输出正确答案特征向量组A,其中A=[a1,a2,…,am],ai表示正确答案特征向量。作为优选方案:步骤S2中,通过嵌入函数fθ(images,questions)将视觉特征向量V和问题语义特征向量Q输入到基于协同注意力机制的网络,获取图像中与问题文本相关的注意力加权特征向量,最后通过一个多层感知器将混合特征向量嵌入到输出维度为n的空间,计算多模态信息融合特征向量组U,其中U=[u1,u2,…,um],u为多模态信息融合特征向量,n为多模态融合特征向量的维度。具体的,步骤S2中多模态融合特征向量的相关计算公式如下:其中,k表示多模态融合特征向量迭代计算过程中的第k层注意力机制,融合特征向量hA是利用注意力机制融合vi和uk-1得到的特征向量,WI,A,分别表示图像特征、问题特征到注意力机制的线性变换矩阵,表示在图像上加权后得到的视觉特征向量,u为多模态信息融合特征向量,bA为注意力机制的偏置项,pI表示通过线性变化和多项逻辑斯蒂回归softmax得到融合特征向量hA在图像上的概率分布,和bP分别表示计算概率分布过程中的权值矩阵、偏置项,j为权值矩阵的维度,l为每个区域的特征向量的维度,d为图像的区域数,表示矩阵和向量的加法;I或者i作为下标,起到编号的作用,用于区分不同样本的对应参数。作为优选方案:步骤S3中对多模态信息融合特征向量进行结构性控制的表达式为:其中,λ表示权衡系数,S表示与正确答案相似的答案的个数,ec表示错误答案语义特征向量,表示计算数学期望,KL表示计算相对熵;变分自编码器VAE将多模态融合特征向量ui作为识别模型φ的输入,生成近似服从于隐空间分布z的先验概率qφ(z∣ui),接着通过解码器ψ生成后验近似概率pθ(ui|z),进而缩小先验概率分布qφ与隐分布pψ的差异;L1表示损失函数,用于衡量变分自编码器在结构性控制中的表现。具体的,变分自编码器VAE是一种生成模型,其在常规的自编码器的基础上,对编码器的结果加上高斯噪声,使得解码器网络能够对噪声具有鲁棒性;通过变分自编码器VAE拟合样本答案特征向量的分布,进而实现正确答案与错误答案之间的结构性控制。步骤S3中,引入对多模态信息融合特征向量ui和错误答案语义特征向量ec的所述结构本文档来自技高网
...

【技术保护点】
1.一种基于多模态融合和结构性控制的视觉问答方法,视觉问答方法需要进行视觉问答的训练,视觉问答的训练需要图像数据集、问题数据集、答案数据集,并从中选取图像样本及其对应的问题样本、答案样本,得到图像样本数据集、问题样本数据集、答案样本数据集,其特征在于:包括以下步骤:/n步骤S1:计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量;/n步骤S2:将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络,计算多模态信息融合特征向量;/n步骤S3:对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制,缩小多模态信息融合特征向量和答案语义特征向量的概率分布;/n步骤S4:根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。/n

【技术特征摘要】
1.一种基于多模态融合和结构性控制的视觉问答方法,视觉问答方法需要进行视觉问答的训练,视觉问答的训练需要图像数据集、问题数据集、答案数据集,并从中选取图像样本及其对应的问题样本、答案样本,得到图像样本数据集、问题样本数据集、答案样本数据集,其特征在于:包括以下步骤:
步骤S1:计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量;
步骤S2:将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络,计算多模态信息融合特征向量;
步骤S3:对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制,缩小多模态信息融合特征向量和答案语义特征向量的概率分布;
步骤S4:根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。


2.根据权利要求1所述的基于多模态融合和结构性控制的视觉问答方法,其特征在于:步骤S1中,训练时输入的图像样本数据集和问题样本数据集构成的并集为其中V=[v1,v2,…,vm]为所述并集的视觉特征向量组,d为图像样本中的区域数,l为每个区域的特征向量的维度,Q=[q1,q2,…,qm]为所述并集的问题语义特征向量组,r为样本中每个问题语义特征向量的维度,m为数据集中样本的总数,视觉特征向量v是通过152层的残差网络ResNet中最后一个卷积层提取的特征向量矩阵,问题语义特征向量q则是在词表示的全局向量GloVe嵌入的基础上使用双向LSTM,即bi-LSTM,提取的特征向量。


3.根据权利要求2所述的基于多模态融合和结构性控制的视觉问答方法,其特征在于:步骤S1中,计算答案样本数据集中的答案语义特征向量,答案语义特征向量分为正确答案语义特征向量和错误答案语义特征向量,先使用词表示的全局向量GloVe获取答案的嵌入向量;然后将答案特征向量输入到指定的多层感知器模型gφ(answers)获取输出正确答案特征向量组A,其中A=[a1,a2,…,am],ai表示正确答案特征向量。


4.根据权利要求3所述的基于多模态融合和结构性控制的视觉问答方法,其特征在于:步骤S2中,通过嵌入函数fθ(images,questions)将视觉特征向量V和问题语义特征向量Q输入到基于协同注意力机制的网络,获取图像中与问题文本相关的注意力加权特征向量,最后通过一个多层感知器将混合特征向量嵌入到输出维度为n的空间,计算多模态信息融合特征向量组U,其中U=[u1,u2,…,um],u为多模态信息融合特征向量,n为多模态融合特征向量的维度。


5.根据权利要求4所述的基于多模态融合和结构性控制的视觉问答方法,其特征在于:步骤S2中多模态融合特征向量的相关计算公式如下:








【专利技术属性】
技术研发人员:孟敏郑进怀郑伟金莫怡静武继刚
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1