一种基于跨模态自注意力的无候选框指代表达理解方法技术

技术编号:32832063 阅读:49 留言:0更新日期:2022-03-26 20:46
本发明专利技术公开了一种基于跨模态自注意力的无候选框指代表达理解方法,该方法无需预先提取候选区域,能够更加高效准确的完成指代表达理解任务。本发明专利技术的技术方案如下:第一部分为对语言及图像信息的提取和编码过程,采用YOLOv3卷积神经网络对图片信息进行特征提取,采用BERT预训练模型对语言信息进行特征提取;第二部分为基于多头注意力机制的跨模态特征加强过程,采用两个并行的多头交互注意力模块分别实现语言对图像及图像对语言的特征强化;第三部分为基于多头自注意力机制的跨模态特征融合过程,利用一个多头自注意力模块对上一部分中获取的两模态的特征进行融合;第四部分为目标的定位过程,采用无锚方法,实现对目标的定位。的定位。的定位。

【技术实现步骤摘要】
一种基于跨模态自注意力的无候选框指代表达理解方法


[0001]本专利技术属于模式识别
,具体涉及一种无候选框指代表达理解方法。

技术介绍

[0002]指代表达理解(Referring expression comprehension,REC)是计算机视觉领域中一项富有挑战性和具有重要意义的任务。该任务要求计算机根据给定的图像和自然语言描述,推理分析得到描述对应的目标区域,是人机交互、视觉问答、图像检索等多个领域的基础任务。然而,这项任务需要全面理解复杂的自然语言和多种类型的视觉信息,这对指代表达理解有效方法的提出带来了巨大困难。
[0003]目前解决该任务的主流思路是两阶段方法,这类方法将指代表达理解转化为候选区域的选择过程。它们依赖Faster R

CNN等成熟的目标检测器,来提取一组候选区域(proposals),并从中挑选评分最高的区域作为最终答案。尽管现有的两阶段方法已经获得了相当好的性能,但这些框架在第一阶段受到了不可避免的错误积累(如果目标对象不能在第一阶段被捕获,框架最终将无法得到正确答案)。另一方面,使用两阶段方法付出的计算成本相当巨大。在提出候选区域时,每一个候选区域都必须进行特征提取和跨模态的相似度计算。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供了一种基于跨模态自注意力的无候选框指代表达理解方法,该方法无需预先提取候选区域,能够更加高效准确的完成指代表达理解任务。本专利技术的技术方案如下:第一部分为对语言及图像信息的提取和编码过程,采用YOLOv3卷积神经网络对图片信息进行特征提取,采用BERT预训练模型对语言信息进行特征提取;第二部分为基于多头注意力机制的跨模态特征加强过程,采用两个并行的多头交互注意力模块分别实现语言对图像及图像对语言的特征强化;第三部分为基于多头自注意力机制的跨模态特征融合过程,利用一个多头自注意力模块对上一部分中获取的两模态的特征进行融合;第四部分为目标的定位过程,采用无锚方法,实现对目标的定位。
[0005]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0006]步骤1:图像及语言信息的提取和编码;
[0007]步骤1

1:将图像经过YOLOv3卷积神经网络提取得到一个特征图;将图像分为多个区域,在特征图中加入图像各个区域的位置信息,将得到的图像特征记为区域,在特征图中加入图像各个区域的位置信息,将得到的图像特征记为G∈R
w
×
h
×
d
,w、h、d分别表示特征图的宽、高以及特征的维度,g
i
表示特征图中第i个特征向量;
[0008]步骤1

2:设定最长的语句词数为T,词数不足T的语句空白处用PAD标识填充,语句开始位置添加CLS标识,语句结尾添加SEP标识;将语句分解为词,通过词嵌入后得到各个词对应的特征向量;再对词的特征向量进行位置编码,将经过位置编码后的词向量输入进BERT网络,得到语言特征E∈R
T
×
dim
,dim表示表达每个单词特征向量的维度,e
t
表示第t个词汇的特征向量;
[0009]步骤2:基于多头注意力机制的跨模态特征加强;
[0010]步骤2

1:将语句特征E和图像特征G输入到跨模态交互注意力模块中;所述跨模态交互注意力模块包括语言引导的视觉注意力模块和视觉引导的语言注意力模块;语言引导的视觉注意力模块和视觉引导的语言注意力模块都分别由N个相同注意力层构成;
[0011]在语言引导的视觉注意力模块和视觉引导的语言注意力模块的第一个注意力层中,E1表示语言特征G1表示图像特征在之后的N

1个注意力层中,E
n
表示经过n

1层图像注意力引导得到的语言特征G
n
表示经过n

1层语言注意力引导得到的图像特征n为当前层数;
[0012]步骤2

2:在语言引导的视觉注意力模块中,语言特征作为查询矩阵Q的输入,图像特征作为键矩阵K和值矩阵V的输入;语言引导的视觉注意力模块的输入由语言特征和图像特征构成;对于每一个e
t
和g
i
计算点积,并除以系数计算点积,并除以系数之后再利用softmax函数计算注意力权重,其中m为多头注意力的头数,d为输入的特征向量的维度;
[0013]每一层语言引导的视觉注意力模块用公式(1)

(3)表示:
[0014][0015][0016][0017]其中是经过n层语言引导的视觉注意力层后第i个注意力头得到的图像特征,分别表示语言引导的视觉注意力模块第n层中第i个注意力头针对Q、K、V的参数;为将m个注意力头得到的图像特征融合后得到融合了语言注意力含义的的图像特征,Concat为拼接操作,为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数,Q
i
、K
i
、V
i
分别为第i个注意力头的查询矩阵、键矩阵和值矩阵;
[0018]每一层图像引导的语言注意力模块中用公式(4)

(6)表示:
[0019][0020][0021][0022]其中是经过n层图像引导的语言注意力层后第i个注意力头得到的语言特征,分别表示图像引导的语言注意力模块第n层中第i个头针对Q、K、V的参数;为将m个注意力头得到的语言特征融合后得到融合了图像注意力含义的的语言特
征,Concat为拼接操作,为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数;
[0023]经过跨模态交互注意力模块的迭代后,得到经过注意力加强后的图像特征和语言特征;
[0024]步骤3:基于多头自注意力机制的跨模态特征融合;
[0025]对语言特征和图像特征进行拼接,作为多头自注意力模块的输入对语言特征和图像特征进行拼接,作为多头自注意力模块的输入经过多头跨模态融合之后,提取视觉部分的输出得到H
F
∈R
(w
×
h)
×
d

[0026]步骤4:目标定位;
[0027]将H
F
输入含有5个卷积核、步长为1的卷积层,得到形状为w
×
h
×
5的预测结果向量,对图像进行等长等宽的区域的划分,按照位置关系将w
×
h个预测结果分别对应于图像的w
×
h个区域,每个区域称为一个格子;其中的5指5个预测值,分别为t
x
、t
y
、t
w
、t
h
,为预测框中心点的置信度即当前格子含有检测目标的可能性,t
x
、t
y
分别为预测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态自注意力的无候选框指代表达理解方法,其特征在于,包括如下步骤:步骤1:图像及语言信息的提取和编码;步骤1

1:将图像经过YOLOv3卷积神经网络提取得到一个特征图;将图像分为多个区域,在特征图中加入图像各个区域的位置信息,将得到的图像特征记为域,在特征图中加入图像各个区域的位置信息,将得到的图像特征记为G∈R
w
×
h
×
d
,w、h、d分别表示特征图的宽、高以及特征的维度,g
i
表示特征图中第i个特征向量;步骤1

2:设定最长的语句词数为T,词数不足T的语句空白处用PAD标识填充,语句开始位置添加CLS标识,语句结尾添加SEP标识;将语句分解为词,通过词嵌入后得到各个词对应的特征向量;再对词的特征向量进行位置编码,将经过位置编码后的词向量输入进BERT网络,得到语言特征E∈R
T
×
dim
,dim表示表达每个单词特征向量的维度,e
t
表示第t个词汇的特征向量;步骤2:基于多头注意力机制的跨模态特征加强;步骤2

1:将语句特征E和图像特征G输入到跨模态交互注意力模块中;所述跨模态交互注意力模块包括语言引导的视觉注意力模块和视觉引导的语言注意力模块;语言引导的视觉注意力模块和视觉引导的语言注意力模块都分别由N个相同注意力层构成;在语言引导的视觉注意力模块和视觉引导的语言注意力模块的第一个注意力层中,E1表示语言特征G1表示图像特征在之后的N

1个注意力层中,E
n
表示经过n

1层图像注意力引导得到的语言特征G
n
表示经过n

1层语言注意力引导得到的图像特征n为当前层数;步骤2

2:在语言引导的视觉注意力模块中,语言特征作为查询矩阵Q的输入,图像特征作为键矩阵K和值矩阵V的输入;语言引导的视觉注意力模块的输入由语言特征和图像特征构成;对于每一个e
t
和g
i
计算点积,并除以系数计算点积,并除以系数之后再利用softmax函数计算注意力权重,其中m为多头注意力的头数,d为输入的特征向量的维度;每一层语言引导的视觉注意力模块用公式(1)

(3)表示:(3)表示:(3)表示:其中是经过n层语言引导的视觉注意力层后第i个注意力头得到的图像特征,分别表示语言引导的视觉注意力模块第n层中第i个注意力头针对Q、K、V的参数;为将m个注意力头得到的图像特征融合后得到融合了语言注意力含义的的图像特征,Concat为拼接操作,为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数,Q
i
、K
i
、V
i
分别为第i个注意力头的查询矩阵、键矩阵和值矩阵;每一层图像引导的语言注意力模块中用公式(4)

(6)表示:
其中是经过n层图像引导的语言注意力层后第i个注意力头得到的语言特征,分别表示图像引导的语言注意力模块第n层中第i个头针对Q、K、V的参数;为将m个注意力头得到的语言特征融合后得到融合了图像注意力含义的的语言特征,Concat为拼接操作,为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数;经过跨模态交互注意力模块的迭代后,得到经过注意力加强后的图像特征和语言特征;步骤3:基于多头自注意力机制的跨模态特征融合;对语言特征和图像特征进行...

【专利技术属性】
技术研发人员:王鹏索伟孙梦阳马瑞阳
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1