基于位置引导Transformer的图像描述生成方法、装置和计算机设备制造方法及图纸

技术编号:34240978 阅读:21 留言:0更新日期:2022-07-24 09:15
本发明专利技术涉及计算机视觉和自然语言处理技术领域,公开了一种基于位置引导Transformer的图像描述生成方法,包括:提取图像的网格特征并进行扁平化处理得到输入向量;计算相对位置编码和绝对位置编码;将上述向量和编码输入预设的位置引导Transformer模型,得到描述图像的语句;位置引导Transformer模型包括编码器和解码器,其均由多个堆叠的注意力块组成,编码器的每个注意力块包括双位置注意力层和前馈神经网络,解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。本发明专利技术提供的基于位置引导Transformer的图像描述生成方法、装置和计算机设备,将绝对位置编码和相对位置编码同时引入自注意力模块,并在其内部对图像特征进行组归一化,提高了模型的表现力。现力。现力。

Image description generation method, device and computer equipment based on position guided transformer

【技术实现步骤摘要】
基于位置引导Transformer的图像描述生成方法、装置和计算机设备


[0001]本专利技术涉及计算机视觉和自然语言处理
,特别涉及一种基于位置引导Transformer的图像描述生成方法、装置和计算机设备。

技术介绍

[0002]图像描述生成是一个多模态任务,旨在自动生成图像中视觉内容的自然语言描述。它不仅要求了模型对视觉和语言的理解,而且还要有能力对齐跨模态表示。图像描述生成模型广泛地使用了编码器

解码器范式,其中卷积神经网络(Convolutional Neural Network,CNN)被用来编码视觉特征,而循环神经网络(Recurrent Neural Network,RNN)被用来将CNN的输出解码为自然句子。此外,基于注意力的方法探索了视觉表征和自然句子之间的互动,并关注突出的信息。具体来说,注意力机制通过生成每个输入图像的空间投影来指导每个单词的解码,以此提高性能。随着Transformer的发展,在图像描述生成模型中,自注意力模块在探索视觉特征和文字之间的相关性方面发挥了重要作用。
[0003]然而,传统的基于Transformer的框架在图像描述生成中考虑图像中视觉内容之间的几何关系方面有一定困难,不能防止自我注意中每层输入的分布变化,同时也很难捕捉到视觉元素之间的相互位置信息的交互,这限制了图像描述生成任务的表达能力。

技术实现思路

[0004]本专利技术提供了一种基于位置引导Transformer的图像描述生成方法、装置和计算机设备,将绝对位置编码和相对位置编码同时引入自注意力模块,并在其内部对图像特征进行组归一化,提高了模型的有效性。
[0005]本专利技术提供了一种基于位置引导Transformer的图像描述生成方法,包括:
[0006]获取图像,并提取所述图像的网格特征;
[0007]将所述网格特征进行扁平化处理,得到输入向量;
[0008]根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码;
[0009]将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型,得到描述所述图像的语句;其中,所述预设的位置引导Transformer模型包括编码器和解码器,所述编码器和解码器均由多个堆叠的注意力块组成,所述编码器的每个注意力块包括双位置注意力层和前馈神经网络,所述解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。
[0010]进一步地,所述根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码的步骤,包括:
[0011]采用正弦波位置编码的拼接和扁平化处理计算所述网格特征的绝对位置编码;其中,计算公式包括:
[0012][0013][0014][0015]其中,APE(i,j)表示绝对位置编码,i,j是一个网格特征的行嵌入和列嵌入,[PE
i
;PE
j
]表示拼接,p表示行或列的位置,m表示p的维度,d
model
表示所述位置引导Transformer模型的维度;
[0016]计算所述网格特征的平滑相对位置编码;其中,计算公式包括:
[0017][0018]其中,表示平滑相对位置编码,表示符号函数,cx和cy表示网格特征的中心坐标,w表示网格特征的宽度,h表示网格特征的高度;
[0019]将所述平滑相对位置编码投影到其中,公式为:
[0020][0021]其中,FC(
·
)表示全连接层对应的映射函数,Emb表示原始Tansformer模型中对应的嵌入函数,σ为ReLU激活函数。
[0022]进一步地,所述将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型,得到描述所述图像的语句的步骤,包括:
[0023]将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码,得到编码结果;
[0024]将所述编码结果输入所述解码器中,并在所述解码器中依次经过掩码注意力层、交叉注意力层和前馈神经网络后,得到描述所述图像的语句。
[0025]进一步地,所述将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码,得到编码结果的步骤中,对于第(l+1)层:
[0026]将所述相对位置编码、绝对位置编码、输入向量输入双位置注意力层进行计算,得到第一计算结果;其中,计算公式为:
[0027]MHBPA(F
l
,F
l
,F
l
,APE,RPE)=Concat(head1,

,head
h
)W
o
[0028]head
i
=BPA(F
l
,F
l
,F
l
,APE,RPE)
[0029]其中,表示输入向量,表示网格特征的绝对位置编码,RPE∈R
N
×
N
表示网格特征的相对位置编码,MHBPA(F
l
,F
l
,F
l
,APE,RPE)表示第一计算结果H
l+1

[0030]将所述第一计算结果H
l+1
进行层归一化得到注意力结果其中,计算公式为:
[0031]H
l+1
=MHBPA(F
l
,F
l
,F
l
,APB,RPE)
[0032][0033]将所述注意力结果输入所述编码器的前馈神经网络进行计算,得到第二计算结果F
l+1
;其中,计算公式为:
[0034][0035]将第二计算结果F
l+1
输入第(l+2)层进行计算,以此类推,直到所有双位置注意力层均计算后,完成多级编码。
[0036]进一步地,所述将所述第一计算结果H
l+1
进行层归一化得到注意力结果的步骤中,注意力结果Z
BPA
为经过组归一化后的注意力结果;其中,组归一化方法包括:
[0037][0038]其中,X、Y代表输入和输出,Var[x]是x的均值和方差,∈是常数,γ、β是可学习的仿射参数;
[0039]Q
n
=GN(Q)
[0040][0041]其中,Q、Q
n
对应X、Y,分别代表输入和输出;
[0042][0043]E
BPA
=S

n
+log(Ω)
[0044]Z
BPA
=BPA(Q,K,V,APB,RPE)=softmax(E
BPA
)
·
(V+P
V
)
[0045]其中,P
Q
,P
K...

【技术保护点】

【技术特征摘要】
1.一种基于位置引导Transformer的图像描述生成方法,其特征在于,包括:获取图像,并提取所述图像的网格特征;将所述网格特征进行扁平化处理,得到输入向量;根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码;将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型,得到描述所述图像的语句;其中,所述预设的位置引导Transformer模型包括编码器和解码器,所述编码器和解码器均由多个堆叠的注意力块组成,所述编码器的每个注意力块包括双位置注意力层和前馈神经网络,所述解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。2.根据权利要求1所述的基于位置引导Transformer的图像描述生成方法,其特征在于,所述根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码的步骤,包括:采用正弦波位置编码的拼接和扁平化处理计算所述网格特征的绝对位置编码;其中,计算公式包括:计算公式包括:计算公式包括:其中,APE(i,j)表示绝对位置编码,i,j是一个网格特征的行嵌入和列嵌入,[PE
i
;PE
j
]表示拼接,p表示行或列的位置,m表示p的维度,d
model
表示所述位置引导Transformer模型的维度;计算所述网格特征的平滑相对位置编码;其中,计算公式包括:其中,表示平滑相对位置编码,表示符号函数,cx和cy表示网格特征的中心坐标,w表示网格特征的宽度,h表示网格特征的高度;将所述平滑相对位置编码投影到其中,公式为:其中,FC(
·
)表示全连接层对应的映射函数,Emb表示原始Tansformer模型中对应的嵌入函数,σ为ReLU激活函数。3.根据权利要求2所述的基于位置引导Transformer的图像描述生成方法,其特征在于,所述将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer
模型,得到描述所述图像的语句的步骤,包括:将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码,得到编码结果;将所述编码结果输入所述解码器中,并在所述解码器中依次经过掩码注意力层、交叉注意力层和前馈神经网络后,得到描述所述图像的语句。4.根据权利要求3所述的基于位置引导Transformer的图像描述生成方法,其特征在于,所述将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码,得到编码结果的步骤中,对于第(l+1)层:将所述相对位置编码、绝对位置编码、输入向量输入双位置注意力层进行计算,得到第一计算结果;其中,计算公式为:MHBPA(F
l
,F
l
,F
l
,APE,RPE)=Concat(head1,

,head
h
)W
O
head
i
=BPA(F
l
,F
l
,F
l
,APE,RPE)其中,表示输入向量,表示网格特征的绝对位置编码,RPE∈R
N
×
N
表示网格特征的相对位置编码,MHBPA(F
l
,F
l
,F
l
,APE,RPE)表示第一计算结果H
l+1
;将所述第一计算结果H
l+1
进行层归一化得到注意力结果其中,计算公式为:H
l+1
=MHBPA(F
l
,F
l
,F

【专利技术属性】
技术研发人员:杨有胡峻滔姚露安永志潘龙越郝子娴
申请(专利权)人:重庆师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1