基于注意力机制的自然语言视觉推理方法技术

技术编号:32826590 阅读:13 留言:0更新日期:2022-03-26 20:30
本发明专利技术提供了一种基于注意力机制的自然语言视觉推理方法。主要包括一个语言解析处理和三个视觉处理模块,首先,输入语言表达式,利用one

【技术实现步骤摘要】
基于注意力机制的自然语言视觉推理方法


[0001]本专利技术属计算机视觉、自然语言处理
,具体涉及一种基于注意力机制的自然语言视觉推理方法。

技术介绍

[0002]指称表达式理解是指在图像中定位自然语言描述的对象区域。即:输入一张图片(包含人或其他对象),输入一句可识别图中某个特定对象的自然语言描述(指称表达式),描述是英文的单词、短语或一句话,可包含对象的类别、位置、颜色、大小以及与周围对象的关系等属性。要求在图片中定位所描述对象的区域(用边界框框出对象并分割)。指称表达式理解是一项有意义的任务,它可以运用到图像检索中,比如在图片库中查找具有特定属性的对象。另外,指称表达式理解也是机器了解现实世界并像人类一样与人交流的一项重要技术,可以运用到现代化智能设备视觉理解和对话系统中。
[0003]J.Mao等人在文献“J.Mao,J.Huang,A.Toshev,O.Camburu,L.Yuille,and K.Murphy,“Generation and comprehension of unambiguous object descriptions,”Proc.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),pp.11

20,2016.”中使用长短时记忆网络LSTM结构来建立概率模型P(r|o),并寻找概率最大化的对象o。首先生成一组候选区域,然后根据概率对这些候选区域进行排名。Rohrbach等人在文献“Rohrbach,M.Rohrbach,R.Hu,T.Darrell,and B.Schiele,“Grounding of textual phrases in images by reconstruction,”Proc.European Conference on Computer Vision(ECCV),pp.817

834,2016.”中采用联合嵌入模型来直接计算P(r|o),使用双视图神经网络学习图像

文本嵌入,图像

文本表示的后面接着两个非线性层,这些表示可通过两个预训练的网络和现成的特征提取网络来获取。结合以上两种方法,L.Yu等人在文献“L.Yu,H.Tan,M.Bansal,and L.Berg,“A joint speaker

listener

reinforcer model for referring expressions,”Proc.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),pp.7282

7290,2017.”提出了一种将CNN

LSTM和嵌入模型相结合的模型以获得更好的表现。该模型可以联合学习CNN

LSTM的“说话者”模型和基于嵌入的“听者”模型,用于指称表达式的生成和理解任务。此外还添加了一个基于奖励的鉴别增强器以指导更具有区分性的指称表达式的采样,进一步改进了系统。该模型不是独立工作的,而是让“说话者”、“听者”和“强化者”相互作用,从而提高生成和理解任务的性能。但该方法对指称表达式上下文信息理解不足,导致最终的定位结果不准确。

技术实现思路

[0004]为了克服现有技术对指称表达式上下文信息理解不足或不准确的问题,本专利技术提供一种基于注意力机制的自然语言视觉推理方法。主要包括一个语言注意力网络模块和三个视觉处理模块,首先,输入语言表达式,利用one

hot编码、BiLSTM编码等对其进行处理,并据此计算得到三个视觉处理模块用的短语嵌入表示和权重;然后,利用Mask R

CNN检测
器对输入图像进行目标检测,以检测得到的目标作为图像的候选对象,并将其分别输入到主语模块、位置模块和关系模块,每个模块分别计算得到相应的匹配得分;最后,计算三个模块匹配得分的加权和作为总体匹配得分,以总体匹配得分最高的候选对象作为语言表达式描述的对象,输出其位置框,完成图像的视觉推理。本专利技术采用端到端的模块化网络,每个模块都能通过学习关注到应该关注的单词,具有更好的上下文信息理解力,且可以自适应输入的指称表达式,能够处理多种结构的表达式。
[0005]一种基于注意力机制的自然语言视觉推理方法,其特征在于步骤如下:
[0006]步骤1:采用one

hot编码将输入语言表达式中的每个单词编码到嵌入表示向量e
t
中,再使用BiLSTM编码每个单词的上下文,将得到的前后两个方向上的隐藏向量相连接,得到每个单词的隐藏表示向量h
t
,t表示表达式中的单词序号,t=1,2,...,T,T表示表达式包含的单词个数;
[0007]步骤2:按照下式计算得到不同模块对每个单词的关注度:
[0008][0009]其中,m∈{sub,loc,rel},m=sub表示主语模块,m=loc表示位置模块,m=rel表示关系模块,a
m,t
表示模块m对第t个单词的关注度,f
m
表示模块m可训练的向量;
[0010]按下式计算单词嵌入表示向量的加权和,作为每个模块的短语嵌入表示向量:
[0011][0012]其中,q
m
表示模块m的短语嵌入;
[0013]步骤3:连接第一个单词和最后一个单词的隐藏表示向量,使用一个全连接层将其转换成三个模块的权重,具体如下:
[0014][0015]其中,w
sub
表示主语模块的权重,w
loc
表示位置模块的权重,w
rel
表示关系模块的权重,softmax(
·
)表示归一化指数函数,用于计算每个模块的权重,W
m
表示每个模块对单词的关注度;h1表示语言表达式中第一个单词的隐藏表示向量,h
T
表示最后一个单词的隐藏表示向量,b
m
表示偏置;
[0016]步骤4:利用Mask R

CNN检测器对输入图像进行目标检测,以检测得到的目标作为图像的候选对象;其中,采用残差网络作为Mask R

CNN检测器的特征提取网络;
[0017]步骤5:将残差网络conv3_x模块输出的特征C3和conv4_x模块输出的特征C4通过1
×
1的卷积合并得到主语特征,将主语特征输入到主语模块中的属性预测分支,得到预测的属性;
[0018]将主语特征划分成14
×
14的空间网格,再计算主语模块的短语嵌入表示向量与每个网格的相似度,此过程的计算表达式如下:
[0019]H
a
=tanh(W
v
V+W
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的自然语言视觉推理方法,其特征在于步骤如下:步骤1:采用one

hot编码将输入语言表达式中的每个单词编码到嵌入表示向量e
t
中,再使用BiLSTM编码每个单词的上下文,将得到的前后两个方向上的隐藏向量相连接,得到每个单词的隐藏表示向量h
t
,t表示表达式中的单词序号,t=1,2,

,T,T表示表达式包含的单词个数;步骤2:按照下式计算得到不同模块对每个单词的关注度:其中,m∈{sub,loc,rel},m=sub表示主语模块,m=loc表示位置模块,m=rel表示关系模块,a
m,t
表示模块m对第t个单词的关注度,f
m
表示模块m可训练的向量;按下式计算单词嵌入表示向量的加权和,作为每个模块的短语嵌入表示向量:其中,q
m
表示模块m的短语嵌入;步骤3:连接第一个单词和最后一个单词的隐藏表示向量,使用一个全连接层将其转换成三个模块的权重,具体如下:其中,w
sub
表示主语模块的权重,w
loc
表示位置模块的权重,w
rel
表示关系模块的权重,softmax(
·
)表示归一化指数函数,用于计算每个模块的权重,W
m
表示每个模块对单词的关注度;h1表示语言表达式中第一个单词的隐藏表示向量,h
T
表示最后一个单词的隐藏表示向量,b
m
表示偏置;步骤4:利用Mask R

CNN检测器对输入图像进行目标检测,以检测得到的目标作为图像的候选对象;其中,采用残差网络作为Mask R

CNN检测器的特征提取网络;步骤5:将残差网络conv3_x模块输出的特征C3和conv4_x模块输出的特征C4通过1
×
1的卷积合并得到主语特征,将主语特征输入到主语模块中的属性预测分支,得到预测的属性;将主语特征划分成14
×
14的空间网格,再计算主语模块的短语嵌入表示向量与每个网格的相似度,此过程的计算表达式如下:H
a
=tanh(W
v
V+W
q
q
sub
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,H
a
表示空间网格上主语模块的短语嵌入,tanh(
·
)表示tanh激活函数,W
v
表示空间网格的权重;W
q
表示主语模块对每个单词的关注度;V表示空间网格的特征;W
h,a
表示网格上每个单词的权重;a
v
表示网格的注意力值;按下式计算空间网格特征V的各个分量v
i
的加权和,得到候选对象的视觉表示向量:其中,表示候选对象i的主语视觉表示,表示第i个网格上的注意力值,v
i
表示第i个网格的特征,G表示网络数量;
计算视觉表示向量和短语嵌入表示向量q
sub
之间的相似度,以相似度值作为主语模块的匹配得分,其计算表达式为:其中,o
i
表示第i个候选对象,S(o
i
|q
sub
)表示第i个候选对象的主语的视觉表示和主语短语嵌入的匹配分数,F(
·
)表示匹配函数,由两个多层感知机和L2正则化构成;步骤6:将候选对象位置的视觉表示和位置短语嵌入输入到位置模块,首先采用5维向量编码候选对象的左上角位置、右下角位置以及与图像的相对面积:其中,l
i
表示第i个候选对象的绝对位置的视觉表示,i=1,2,

,N,N是Mask R

CNN检测器检测识别出的候选对象个数,表示第i个候选对象边界框左上角的横坐标值,表示第i个候选对象边界框左上角的纵坐标值,表示第i个候选对象边界框右下角的横坐标值,表示第i个候选对象边界框右下角的纵坐标值,w
...

【专利技术属性】
技术研发人员:王琦许杰袁媛
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1