基于位置引导Transformer的图像描述生成方法、装置和计算机设备制造方法及图纸

技术编号：34240978 阅读：21 留言：0更新日期：2022-07-24 09:15

本发明专利技术涉及计算机视觉和自然语言处理技术领域，公开了一种基于位置引导Transformer的图像描述生成方法，包括：提取图像的网格特征并进行扁平化处理得到输入向量；计算相对位置编码和绝对位置编码；将上述向量和编码输入预设的位置引导Transformer模型，得到描述图像的语句；位置引导Transformer模型包括编码器和解码器，其均由多个堆叠的注意力块组成，编码器的每个注意力块包括双位置注意力层和前馈神经网络，解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。本发明专利技术提供的基于位置引导Transformer的图像描述生成方法、装置和计算机设备，将绝对位置编码和相对位置编码同时引入自注意力模块，并在其内部对图像特征进行组归一化，提高了模型的表现力。现力。现力。

Image description generation method, device and computer equipment based on position guided transformer

全部详细技术资料下载

【技术实现步骤摘要】
基于位置引导Transformer的图像描述生成方法、装置和计算机设备

[0001]本专利技术涉及计算机视觉和自然语言处理
，特别涉及一种基于位置引导Transformer的图像描述生成方法、装置和计算机设备。

技术介绍

[0002]图像描述生成是一个多模态任务，旨在自动生成图像中视觉内容的自然语言描述。它不仅要求了模型对视觉和语言的理解，而且还要有能力对齐跨模态表示。图像描述生成模型广泛地使用了编码器
‑
解码器范式,其中卷积神经网络(Convolutional Neural Network,CNN)被用来编码视觉特征，而循环神经网络(Recurrent Neural Network,RNN)被用来将CNN的输出解码为自然句子。此外，基于注意力的方法探索了视觉表征和自然句子之间的互动，并关注突出的信息。具体来说，注意力机制通过生成每个输入图像的空间投影来指导每个单词的解码，以此提高性能。随着Transformer的发展,在图像描述生成模型中，自注意力模块在探索视觉特征和文字之间的相关性方面发挥了重要作用。
[0003]然而，传统的基于Transformer的框架在图像描述生成中考虑图像中视觉内容之间的几何关系方面有一定困难，不能防止自我注意中每层输入的分布变化，同时也很难捕捉到视觉元素之间的相互位置信息的交互，这限制了图像描述生成任务的表达能力。

技术实现思路

[0004]本专利技术提供了一种基于位置引导Transformer的图像描述生成方法、装置和计算机设备，将绝对

【技术保护点】

【技术特征摘要】
1.一种基于位置引导Transformer的图像描述生成方法，其特征在于，包括：获取图像，并提取所述图像的网格特征；将所述网格特征进行扁平化处理，得到输入向量；根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码；将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型，得到描述所述图像的语句；其中，所述预设的位置引导Transformer模型包括编码器和解码器，所述编码器和解码器均由多个堆叠的注意力块组成，所述编码器的每个注意力块包括双位置注意力层和前馈神经网络，所述解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。2.根据权利要求1所述的基于位置引导Transformer的图像描述生成方法，其特征在于，所述根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码的步骤，包括：采用正弦波位置编码的拼接和扁平化处理计算所述网格特征的绝对位置编码；其中，计算公式包括：计算公式包括：计算公式包括：其中，APE(i，j)表示绝对位置编码，i，j是一个网格特征的行嵌入和列嵌入，[PE
i
；PE
j
]表示拼接，p表示行或列的位置，m表示p的维度，d
model
表示所述位置引导Transformer模型的维度；计算所述网格特征的平滑相对位置编码；其中，计算公式包括：其中，表示平滑相对位置编码，表示符号函数，cx和cy表示网格特征的中心坐标，w表示网格特征的宽度，h表示网格特征的高度；将所述平滑相对位置编码投影到其中，公式为：其中，FC(
·
)表示全连接层对应的映射函数，Emb表示原始Tansformer模型中对应的嵌入函数，σ为ReLU激活函数。3.根据权利要求2所述的基于位置引导Transformer的图像描述生成方法，其特征在于，所述将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer
模型，得到描述所述图像的语句的步骤，包括：将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码，得到编码结果；将所述编码结果输入所述解码器中，并在所述解码器中依次经过掩码注意力层、交叉注意力层和前馈神经网络后，得到描述所述图像的语句。4.根据权利要求3所述的基于位置引导Transformer的图像描述生成方法，其特征在于，所述将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码，得到编码结果的步骤中，对于第(l+1)层：将所述相对位置编码、绝对位置编码、输入向量输入双位置注意力层进行计算，得到第一计算结果；其中，计算公式为：MHBPA(F
l
，F
l
，F
l
，APE，RPE)＝Concat(head1，
…
，head
h
)W
O
head
i
＝BPA(F
l
，F
l
，F
l
，APE，RPE)其中，表示输入向量，表示网格特征的绝对位置编码，RPE∈R
N
×
N
表示网格特征的相对位置编码，MHBPA(F
l
，F
l
，F
l
，APE，RPE)表示第一计算结果H
l+1
；将所述第一计算结果H
l+1
进行层归一化得到注意力结果其中，计算公式为：H
l+1
＝MHBPA(F
l
，F
l
，F

【专利技术属性】
技术研发人员：杨有，胡峻滔，姚露，安永志，潘龙越，郝子娴，
申请(专利权)人：重庆师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人