【技术实现步骤摘要】
基于注意力机制的自然语言视觉推理方法
[0001]本专利技术属计算机视觉、自然语言处理
,具体涉及一种基于注意力机制的自然语言视觉推理方法。
技术介绍
[0002]指称表达式理解是指在图像中定位自然语言描述的对象区域。即:输入一张图片(包含人或其他对象),输入一句可识别图中某个特定对象的自然语言描述(指称表达式),描述是英文的单词、短语或一句话,可包含对象的类别、位置、颜色、大小以及与周围对象的关系等属性。要求在图片中定位所描述对象的区域(用边界框框出对象并分割)。指称表达式理解是一项有意义的任务,它可以运用到图像检索中,比如在图片库中查找具有特定属性的对象。另外,指称表达式理解也是机器了解现实世界并像人类一样与人交流的一项重要技术,可以运用到现代化智能设备视觉理解和对话系统中。
[0003]J.Mao等人在文献“J.Mao,J.Huang,A.Toshev,O.Camburu,L.Yuille,and K.Murphy,“Generation and comprehension of unambiguous object descriptions,”Proc.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),pp.11
‑
20,2016.”中使用长短时记忆网络LSTM结构来建立概率模型P(r|o),并寻找概率最大化的对象o。首先生成一组候选区域,然后根据概率对这些候选区域进行排名。Rohrbach等人在文 ...
【技术保护点】
【技术特征摘要】
1.一种基于注意力机制的自然语言视觉推理方法,其特征在于步骤如下:步骤1:采用one
‑
hot编码将输入语言表达式中的每个单词编码到嵌入表示向量e
t
中,再使用BiLSTM编码每个单词的上下文,将得到的前后两个方向上的隐藏向量相连接,得到每个单词的隐藏表示向量h
t
,t表示表达式中的单词序号,t=1,2,
…
,T,T表示表达式包含的单词个数;步骤2:按照下式计算得到不同模块对每个单词的关注度:其中,m∈{sub,loc,rel},m=sub表示主语模块,m=loc表示位置模块,m=rel表示关系模块,a
m,t
表示模块m对第t个单词的关注度,f
m
表示模块m可训练的向量;按下式计算单词嵌入表示向量的加权和,作为每个模块的短语嵌入表示向量:其中,q
m
表示模块m的短语嵌入;步骤3:连接第一个单词和最后一个单词的隐藏表示向量,使用一个全连接层将其转换成三个模块的权重,具体如下:其中,w
sub
表示主语模块的权重,w
loc
表示位置模块的权重,w
rel
表示关系模块的权重,softmax(
·
)表示归一化指数函数,用于计算每个模块的权重,W
m
表示每个模块对单词的关注度;h1表示语言表达式中第一个单词的隐藏表示向量,h
T
表示最后一个单词的隐藏表示向量,b
m
表示偏置;步骤4:利用Mask R
‑
CNN检测器对输入图像进行目标检测,以检测得到的目标作为图像的候选对象;其中,采用残差网络作为Mask R
‑
CNN检测器的特征提取网络;步骤5:将残差网络conv3_x模块输出的特征C3和conv4_x模块输出的特征C4通过1
×
1的卷积合并得到主语特征,将主语特征输入到主语模块中的属性预测分支,得到预测的属性;将主语特征划分成14
×
14的空间网格,再计算主语模块的短语嵌入表示向量与每个网格的相似度,此过程的计算表达式如下:H
a
=tanh(W
v
V+W
q
q
sub
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,H
a
表示空间网格上主语模块的短语嵌入,tanh(
·
)表示tanh激活函数,W
v
表示空间网格的权重;W
q
表示主语模块对每个单词的关注度;V表示空间网格的特征;W
h,a
表示网格上每个单词的权重;a
v
表示网格的注意力值;按下式计算空间网格特征V的各个分量v
i
的加权和,得到候选对象的视觉表示向量:其中,表示候选对象i的主语视觉表示,表示第i个网格上的注意力值,v
i
表示第i个网格的特征,G表示网络数量;
计算视觉表示向量和短语嵌入表示向量q
sub
之间的相似度,以相似度值作为主语模块的匹配得分,其计算表达式为:其中,o
i
表示第i个候选对象,S(o
i
|q
sub
)表示第i个候选对象的主语的视觉表示和主语短语嵌入的匹配分数,F(
·
)表示匹配函数,由两个多层感知机和L2正则化构成;步骤6:将候选对象位置的视觉表示和位置短语嵌入输入到位置模块,首先采用5维向量编码候选对象的左上角位置、右下角位置以及与图像的相对面积:其中,l
i
表示第i个候选对象的绝对位置的视觉表示,i=1,2,
…
,N,N是Mask R
‑
CNN检测器检测识别出的候选对象个数,表示第i个候选对象边界框左上角的横坐标值,表示第i个候选对象边界框左上角的纵坐标值,表示第i个候选对象边界框右下角的横坐标值,表示第i个候选对象边界框右下角的纵坐标值,w
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。