一种语言导向卷积神经网络及视觉问答方法技术

技术编号：37245688 阅读：24 留言：0更新日期：2023-04-20 23:25

本发明专利技术属于图像处理技术领域，公开一种语言导向卷积神经网络及视觉问答方法，所述语言导向卷积神经网络包括多组语言导向卷积模块，每组语言导向卷积模块后接最大池化层；所述语言导向卷积模块包含卷积层、归一化层和全连接层，输入图片经过卷积层卷积操作提取视觉特征，接着经过一个归一化层和输入通过门控机制进行加权相加，得到的结果经过全连接层和残差连接得到最终的输出；所述语言导向卷积模块通过视觉特征和语言特征经注意力机制得到语言导向的注意力特征；利用语言导向的注意力特征来预测卷积核参数以及门控参数。本发明专利技术能够通过语言信息来自适应地学习相关的视觉内容，从而提高视觉问答任务的精度。而提高视觉问答任务的精度。而提高视觉问答任务的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种语言导向卷积神经网络及视觉问答方法

[0001]本专利技术属于图像处理
，具体涉及视觉问答和跨模态融合，特别涉及一种语言导向卷积神经网络及视觉问答方法。

技术介绍

[0002]视觉问答技术，是一种基于视觉和语言的多模态任务。给定关于图像的某个自然语言问题，视觉问答需要根据问题和图像来给出答案。在现有的方法和文献中，视觉问答的模型通常先利用一个在大型图像数据集上预训练的卷积神经网络来提取图片特征，然后利用语言编码器来提取语言特征，最后通过跨模态交互的方式将两种特征融合在一起用于预测问题的答案。这种建模的方式在结构上非常依赖于预训练的卷积神经网络来得到视觉信息。而由于得到的视觉信息通常是与语言无关的，因此预训练的卷积神经网络显得非常冗余。与此同时，在方法上，现有的视觉问答系统更注重在跨模态交互上的研究。如何得到更好的视觉
‑
本文之间的融合是这些方法关注的重点，而对于视觉内容的学习，现有方法仍然存在一定的瓶颈。具体来说，现有的方法难以根据语言信息来自适应地学习视觉内容，这使得视觉内容的学习局限于预训...

【技术保护点】

【技术特征摘要】
1.一种语言导向卷积神经网络，其特征是：从输入到输出依次包括第一全连接层、第一最大池化层、第一层的两个语言导向卷积模块、第二最大池化层、第二层的一个语言导向卷积模块、第三最大池化层、第三层的两个语言导向卷积模块、第四最大池化层、第四层的四个语言导向的卷积模块、第五最大池化层、第五层的一个语言导向卷积模块、分类器；所述语言导向卷积模块包含卷积层、归一化层和第二全连接层，输入图片经过卷积层卷积操作提取视觉特征，接着经过一个归一化层和输入通过门控机制进行加权相加，得到的结果经过第二全连接层和残差连接得到最终的输出；所述语言导向卷积模块通过视觉特征I和语言特征Q经注意力机制得到语言导向的注意力特征C；接着，利用语言导向的注意力特征C来预测卷积核参数W
conv
以及门控参数W
gate
；根据得到的卷积核参数W
conv
和门控参数W
gate
，卷积核参数通过卷积操作提取视觉信息，同时门控参数控制视觉信息的输出，完成语言导向卷积模块操作的计算，更新视觉特征，并通过一个两层的映射和残差连接得到更新后的视觉特征I
′
。2.根据权利要求1所述的语言导向卷积神经网络，其特征是：经过预处理的视觉特征I∈R h
×
w
×
di
，以及经过语言编码器处理的语言特征Q∈R
l
×
de ，通过注意力机制来计算语言导向的注意力特征C∈R
h
×
w
×
d
，其中，R代表实数集，h代表高度，w代表宽度，d代表语言导向的注意力特征的维度，di代表视觉特征的维度，de代表语言特征的维度，l代表语言特征的长度；语言导向的注意力特征计算过程如下：M=((I+P)W
q
)(QW
k
)
T
；C=M(QW
v
)；其中，W
q
∈R
di
×
d
、W
k
∈R
de
×
d
和W
v
∈R
de
×
d
为三个不同的可学习参数矩阵，分别称为查询矩阵、键值矩阵和权重矩阵，分别将特征映射到不同的参数空间；P∈R
h
×
w
×
d
表示位置编码，M∈R
h
×
w
×
h
×
w
为注意力矩阵；利用语言导向的注意力特征预测出卷积操作的卷积核参数W
conv
∈R
h
×
w
×
(γ
×
β

【专利技术属性】
技术研发人员：张苗辉，罗根，周奕毅，吴志勇，纪荣嵘，古和今，
申请(专利权)人：江西省科学院能源研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人