一种基于模态联合交互的图像问答方法技术

技术编号:38854883 阅读:15 留言:0更新日期:2023-09-17 10:00
本发明专利技术公开了一种基于模态联合交互的图像问答方法,其包括以下步骤:对图像和问题进行预处理得到对应的图像特征向量和问题高层特征向量;构建图像问答网络并得到模态内单元注意力特征和模态间单元注意力特征;通过模态双向联合交互和残差堆叠式的深度融合对模态内单元注意力特征以及模态间交互注意力特征进行深度融合,得到隐藏层的输出图像特征和输出问题特征;对最后一个隐藏层输出图像特征和输出问题特征进行特征合并得到最终特征;将最终特征通过线性变换映射到多类别向量中进行答案预测。本发明专利技术可实现图像和问题特征之间的双向引导,提升模型交互能力;增强跨模态语义空间的信息共享;增强了模型的多模态交互能力;提升了答案分类的效果。提升了答案分类的效果。提升了答案分类的效果。

【技术实现步骤摘要】
一种基于模态联合交互的图像问答方法


[0001]该专利技术涉及人工智能深度学习图像问答
,具体涉及一种基于模态联合交互的图像问答方法。

技术介绍

[0002]目前在计算机领域,不管是网速还是性能上都有极大的提升,因此数据也以各个模态的形式在互联网上传递着,比如从最开始的文本到图像传输,再到语音、视频等模态,都离不开计算机软硬件的发展。图像问答作为一种经典的跨模态任务,它需要计算机从给定的图像和问题中寻找关键信息并推理出问题的答案,相比于单模态的目标检测、问答系统等任务,需要计算机模型对图文信息有更细粒度的理解,同时对两种模态进行融合交互进而实现模型推理的能力。
[0003]图像问答需要分别对图像和问题文本进行理解,对图像而言,它本身是以高维数据结构的形式存储,同时包含着大量的譬如颜色、形状等视觉信息,这些信息对人类是很直观的,但对于计算机来说是极具挑战的。
[0004]随着计算机视觉的发展,越来越多的图像特征提取方法能够有效地提取和编码图像中的信息,使计算机能够理解图像中的各类信息。而问题文本属于自然语言,其中会包含大量的语义和语法信息,对于计算机来说也不能直观理解。除此之外,自然语言会存在多义和歧义等问题,这也增加了计算机对自然语言理解的难度。当前自然语言处理领域也涌现出词嵌入方法能够让计算机很好地理解自然语言,这对计算机推理能力的提升是很关键的。而对图文特征由于存在语义差异,导致难以进行有效的融合并让模型获得推理能力,且模型的交互能力低,这也是图像问答任务的主要难题。

技术实现思路
<br/>[0005]针对现有技术中的上述不足,本专利技术提供的一种基于模态联合交互的图像问答方法解决了现有技术中图文特征难以融合导致的无法进行答案预测的问题。
[0006]为了达到上述专利技术目的,本专利技术采用的技术方案为:
[0007]提供了一种基于模态联合交互的图像问答方法,其包括以下步骤:
[0008]S1、通过预训练的残差网络对以卷积神经为核心的目标检测网络初始化得到输入图像的动态特征;将输入图像的动态特征进行填充得到图像特征向量;
[0009]S2、通过预训练的全局词向量模型对问题文本进行单词向量化,得到问题文本特征向量;对问题文本特征向量进行特征化处理,得到问题高层特征向量;
[0010]S3、构建以模态内单元注意力和模态间交互注意力为核心的图像问答网络;将图像特征向量和问题高层特征向量输入至图像问答网络,得到模态内单元注意力特征和模态间单元注意力特征;
[0011]S4、通过模态双向联合交互和残差堆叠式的深度融合对模态内单元注意力特征以及模态间交互注意力特征进行深度融合,得到不同隐藏层的输出图像特征和输出问题特
征;
[0012]S5、通过特征堆叠对最后一个隐藏层输出图像特征和输出问题特征进行特征合并,得到最终特征;将最终特征通过线性变换映射到多类别向量中进行答案预测。
[0013]进一步地,步骤S1中预训练的残差网络采用ResNet

101网络结构,卷积神经网络采用Faster R

CNN网络结构;所述步骤S2中全局词向量模型采用GloVe模型。
[0014]进一步地,步骤S2的具体步骤如下:
[0015]S2

1、将问题文本中的m个单词进行分词和向量化得到问题文本特征向量;
[0016]S2

2、将问题文本特征向量用0进行填充得到维度为M
QUES
×
EMB_SIZE的向量表示其中,表示问题文本t时刻的向量表示,M
QUES
表示问题单词数,EMB_SIZE表示问题的嵌入维度;
[0017]S2

3、引入双向门控循环单元,根据公式:
[0018][0019][0020]得到t时刻的双向隐藏状态,即前向隐藏状态和反向隐藏状态其中,GRU(
·
)表示循环神经网络模型,表示t

1时刻的前向隐藏状态,表示t+1时刻的反向隐藏状态;
[0021]S2

4、将所有时刻的问题文本特征向量进行拼接得到最后的问题高层特征向量
[0022]进一步地,步骤S3的具体步骤如下:
[0023]S3

1、将图像问答网络的模型参数进行初始化,将图像特征向量和问题高层特征向量输入至图像问答网络;
[0024]S3

2、对图像问答网络的模型进行训练,将预设的答案类别为训练目标,通过反向传播算法和随机梯度下降对图像问答网络进行训练,对图像问答网络的参数进行调整,得到训练后的图像问答网络;其中,图像问答网络的参数包括可学习的权重矩阵W
n
和偏置项b
n

[0025]S3

3、构建图像模态内单元注意力模块和问题模态内单元注意力模块,选取其中一个模态内单元注意力模块,根据公式:
[0026]Q,K,V=trans(X)
[0027]得到查询向量Q、键向量K和值向量V;其中,n表示问题的单词数或图像的对象数,EMB_DIM表示问题的嵌入维度,X表示维度为n
×
EMB_DIM的某一个模态的特征向量,trans(
·
)表示将特征向量X转换为多头特征向量;特征向量X包括图像特征向量和问题高层特征向量;
[0028]S3

4、根据公式:
[0029][0030]得到注意力得分矩阵S;其中,K
T
表示键向量K的转置矩阵,d
k
表示查询向量Q的EMB_
DIM大小;
[0031]S3

5、根据公式:
[0032]A=softmax(S),S∈R
MH
×
n
×
n
[0033]得到注意力权重矩阵A;其中,softmax(
·
)表示归一化指数函数,R表示实数,MH表示注意力头的个数;
[0034]S3

6、将多头特征向量进行转换得到与原始输入相同维度的多头特征向量,根据公式:
[0035]O=trans'(A
·
V)
[0036]O'=LayerNorm(O+Dropout(O))
[0037]FFN(O')=max(0,O'W1+b1)W2+b2[0038]O
I
=LayerNorm(O'+Dropout(FFN(O')))
[0039]得到模态内单元注意力矩阵O
I
,即该模态的模态内单元注意力特征;其中,trans'(
·
)表示维度转换函数,O表示初始模态内单元注意力矩阵,O'表示中间模态内单元注意力矩阵,Dropout(
·
)表示随机失活,LayerNorm(...

【技术保护点】

【技术特征摘要】
1.一种基于模态联合交互的图像问答方法,其特征在于:包括以下步骤:S1、通过预训练的残差网络对以卷积神经为核心的目标检测网络初始化得到输入图像的动态特征;将输入图像的动态特征进行填充得到图像特征向量;S2、通过预训练的全局词向量模型对问题文本进行单词向量化,得到问题文本特征向量;对问题文本特征向量进行特征化处理,得到问题高层特征向量;S3、构建以模态内单元注意力和模态间交互注意力为核心的图像问答网络;将图像特征向量和问题高层特征向量输入至图像问答网络,得到模态内单元注意力特征和模态间单元注意力特征;S4、通过模态双向联合交互和残差堆叠式的深度融合对模态内单元注意力特征以及模态间交互注意力特征进行深度融合,得到不同隐藏层的输出图像特征和输出问题特征;S5、通过特征堆叠对最后一个隐藏层输出图像特征和输出问题特征进行特征合并,得到最终特征;将最终特征通过线性变换映射到多类别向量中进行答案预测。2.根据权利要求1所述的基于模态联合交互的图像问答方法,其特征在于:所述步骤S1中预训练的残差网络采用ResNet

101网络结构,卷积神经网络采用Faster R

CNN网络结构;所述步骤S2中全局词向量模型采用GloVe模型。3.根据权利要求1所述的基于模态联合交互的图像问答方法,其特征在于:所述步骤S2的具体步骤如下:S2

1、将问题文本中的m个单词进行分词和向量化得到问题文本特征向量;S2

2、将问题文本特征向量用0进行填充得到维度为M
QUES
×
EMB_SIZE的向量表示其中,表示问题文本t时刻的向量表示,M
QUES
表示问题单词数,EMB_SIZE表示问题的嵌入维度;S2

3、引入双向门控循环单元,根据公式:3、引入双向门控循环单元,根据公式:得到t时刻的双向隐藏状态,即前向隐藏状态和反向隐藏状态其中,GRU(
·
)表示循环神经网络模型,表示t

1时刻的前向隐藏状态,表示t+1时刻的反向隐藏状态;S2

4、将所有时刻的问题文本特征向量进行拼接得到最后的问题高层特征向量4.根据权利要求1所述的基于模态联合交互的图像问答方法,其特征在于:所述步骤S3的具体步骤如下:S3

1、将图像问答网络的模型参数进行初始化,将图像特征向量和问题高层特征向量输入至图像问答网络;S3

2、对图像问答网络的模型进行训练,将预设的答案类别为训练目标,通过反向传播算法和随机梯度下降对图像问答网络进行训练,对图像问答网络的参数进行调整,得到训练后的图像问答网络;其中,图像问答网络的参数包括可学习的权重矩阵W
n
和偏置项b
n
;S3

3、构建图像模态内单元注意力模块和问题模态内单元注意力模块,选取其中一个模态内单元注意力模块,根据公式:
Q,K,V=trans(X)得到查询向量Q、键向量K和值向量V;其中,n表示问题的单词数或图像的对象数,EMB_DIM表示问题的嵌入维度,X表示维度为n
×
EMB_DIM的某一个模态的特征向量,trans(
·
)表示将特征向量X转换为多头特征向量;特征向量X包括图像特征向量和问题高层特征向量;S3

4、根据公式:得到注意力得分矩阵S;其中,K
T
表示键向量K的转置矩阵,d
k
表示查询向量Q的EMB_DIM大小;S3

5、根据公式:A=softmax(S),S∈R
MH
×
n
×
n
得到注意力权重矩阵A;其中,softmax(
·
)表示归一化指数函数,R表示实数,MH表示注意力头的个数;S3

6、将多头特征向量进行转换得到与原始输入相同维度的多头特征向量,根据公式:O=trans'(A
·
V)O'=LayerNorm(O+...

【专利技术属性】
技术研发人员:郑旭张栗粽高辉何岳峰仲文章刘立建
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1