一种基于多模态融合和结构性控制的视觉问答方法技术

技术编号：28978694 阅读：32 留言：0更新日期：2021-06-23 09:24

本发明专利技术涉及视觉问答技术领域，提供一种基于多模态融合和结构性控制的视觉问答方法，包括以下步骤：S1：计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量；S2：将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络，计算多模态信息融合特征向量；S3：对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制，缩小多模态信息融合特征向量和答案语义特征向量的概率分布；S4：根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。本发明专利技术增强了视觉问答方法的泛化性，提高了视觉问答方法的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态融合和结构性控制的视觉问答方法
本专利技术涉及视觉问答
，具体涉及一种基于多模态融合和结构性控制的视觉问答方法。
技术介绍
现今视觉问答技术(VisualQuestionAnswering,VQA)是一个结合计算机视觉和自然语言处理两大技术的研究方向，可用于图像检索、帮助视力受损人群获取信息和提升人机交互体验等方面。视觉问答技术指根据给定的一张图像和一个与图像相关的自然语言问题，预测出关于图像对应问题的答案。传统的视觉问答方法通常通过卷积网络提取图像的全局视觉特征向量，而忽略了视觉特征向量的局部空间信息，同时通过特征向量乘法或拼接等方式对问题语义特征向量和视觉特征向量进行特征向量融合，忽略了视觉特征向量和问题语义特征向量之间的联系，上述问题将会导致模型对基于局部图像特征向量的自然语言问题预测效果欠佳，且存在泛化能力较弱的问题。针对上述问题，基于注意力机制的视觉问答方法将视觉特征向量与问题语义特征向量输入到相同空间，反复迭代计算图像空间的注意力权值分布过程，以获取图像中与问题相关的特征向量空间信息。此外，传统的视觉问答方法未充分考虑答案语义之间的相似性，以及图像、问题和答案三者语义之间的关联性。近年来，视觉问答领域中运用了深度学习模型，但尚未出现与生成模型相关的应用方法。变分自编码器(VariationalAuto-Encoder,VAE)是一种生成模型，其在常规的自编码器的基础上，对编码器的结果加上高斯噪声，使得解码器网络能够对噪声具有鲁棒性。因此，通过VAE拟合样本答案特征向量的...

【技术保护点】
1.一种基于多模态融合和结构性控制的视觉问答方法，视觉问答方法需要进行视觉问答的训练，视觉问答的训练需要图像数据集、问题数据集、答案数据集，并从中选取图像样本及其对应的问题样本、答案样本，得到图像样本数据集、问题样本数据集、答案样本数据集，其特征在于：包括以下步骤：/n步骤S1：计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量；/n步骤S2：将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络，计算多模态信息融合特征向量；/n步骤S3：对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制，缩小多模态信息融合特征向量和答案语义特征向量的概率分布；/n步骤S4：根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。/n

【技术特征摘要】
1.一种基于多模态融合和结构性控制的视觉问答方法，视觉问答方法需要进行视觉问答的训练，视觉问答的训练需要图像数据集、问题数据集、答案数据集，并从中选取图像样本及其对应的问题样本、答案样本，得到图像样本数据集、问题样本数据集、答案样本数据集，其特征在于：包括以下步骤：
步骤S1：计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量；
步骤S2：将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络，计算多模态信息融合特征向量；
步骤S3：对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制，缩小多模态信息融合特征向量和答案语义特征向量的概率分布；
步骤S4：根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。

2.根据权利要求1所述的基于多模态融合和结构性控制的视觉问答方法，其特征在于：步骤S1中，训练时输入的图像样本数据集和问题样本数据集构成的并集为其中V＝[v1,v2,…,vm]为所述并集的视觉特征向量组，d为图像样本中的区域数，l为每个区域的特征向量的维度，Q＝[q1,q2,…,qm]为所述并集的问题语义特征向量组，r为样本中每个问题语义特征向量的维度，m为数据集中样本的总数，视觉特征向量v是通过152层的残差网络ResNet中最后一个卷积层提取的特征向量矩阵，问题语义特征向量q则是在词表示的全局向量GloVe嵌入的基础上使用双向LSTM，即bi-LSTM，提取的特征向量。

3.根据权利要求2所述的基于多模态融合和结构性控制的视觉问答方法，其特征在于：步骤S1中，计算答案样本数据集中的答案语义特征向量，答案语义特征向量分为正确答案语义特征向量和错误答案语义特征向量，先使用词表示的全局向量GloVe获取答案的嵌入向量；然后将答案特征向量输入到指定的多层感知器模型gφ(answers)获取输出正确答案特征向量组A，其中A＝[a1,a2,…,am]，ai表示正确答案特征向量。

4.根据权利要求3所述的基于多模态融合和结构性控制的视觉问答方法，其特征在于：步骤S2中，通过嵌入函数fθ(images,questions)将视觉特征向量V和问题语义特征向量Q输入到基于协同注意力机制的网络，获取图像中与问题文本相关的注意力加权特征向量，最后通过一个多层感知器将混合特征向量嵌入到输出维度为n的空间，计算多模态信息融合特征向量组U，其中U＝[u1,u2,…,um]，u为多模态信息融合特征向量，n为多模态融合特征向量的维度。

5.根据权利要求4所述的基于多模态融合和结构性控制的视觉问答方法，其特征在于：步骤S2中多模态融合特征向量的相关计算公式如下：

【专利技术属性】
技术研发人员：孟敏，郑进怀，郑伟金，莫怡静，武继刚，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人