一种应用特征金字塔的图片字幕生成方法技术

技术编号:34252704 阅读:47 留言:0更新日期:2022-07-24 11:56
本发明专利技术公开一种应用特征金字塔的图片字幕生成方法,步骤为:将预处理后的图片输入特征金字塔模块中,抽取特征图作为图片特征信息,和预处理后的图片并称为低维度、高维度、原始维度三种不同尺度的图片特征;将原始维度图片特征送入嵌入层转换成向量表示;将三种不同尺度的图片特征送入编码器的第一层,进行维度缩放;将维度大小一致的隐层信息送入编码器中堆叠的高层得到三种编码器特征,通过拼接得到融合后的图片特征送入模型的解码器进行解码;通过交叉熵损失函数进行梯度更新,优化模型权重,得到图片字幕生成方法。本发明专利技术从图片的不同角度和不同的视野距离来增强图片的语义表达能力有效降低了编码器中自注意力机制和前馈神经网络的计算成本。馈神经网络的计算成本。馈神经网络的计算成本。

A method of image caption generation using feature pyramid

【技术实现步骤摘要】
一种应用特征金字塔的图片字幕生成方法


[0001]本专利技术涉及一种图像及语言处理技术,具体一种基于特征金字塔的图片字幕生成方法。

技术介绍

[0002]图像字幕(Image Caption)可以认为是一种全局的目标检测任务,是由整张图片来生成一个描述图片内容的句子。早期的图像字幕生成方法是基于传统机器学习的,包括使用一些图像处理的算子来提取出图像的特征,使用支持向量机等进行分类以得到图像中的目标,再将得到的目标及其属性作为生成句子的依据,例如,利用CRF或者是一些认为制定的规则来恢复成对图像的描述。这样的做法在实际应用中并不理想,非常依赖于1)图像特征的提取2)生成句子时所需要的规则。
[0003]深度学习促进了计算机视觉的迅速发展。图像编码和特征提取大大受益于CNN的发展。随着VGG等深度CNN编码器的出现,图像识别等任务准确率迅速提高。由于CNN强大的图像特征提取能力,在image caption任务中使用深度CNN网络作为图像特征编码器成为主流的做法。谷歌在2014年提出Neural Image Caption模型算是这种方法的开山之作。随后的Neural Talk等对Image caption发展有较大影响的模型几乎都沿用了这个基本框架。
[0004]随着Transformer模型在自然语言处理领域中越来越流行,越来越受人推崇,在图片领域现在也有大量的工作在尝试使用Transformer来提取更加强大的图像特征。目前由Transformer改进而来的Vision Transformer已经有效地在各大图片任务中取得良好的结果。如图1所示,Vision Transformer仍然采用编解码器的结构,利用注意力机制对图片特征和子图片的位置信息进行编码和解码。在注意力计算过程中,采用多头切分的方式,使不同头关注到不同图片语义空间的信息。注意力机制除了自注意力外,还有编解码器注意力。它们的区别在于:自注意力的查询向量、键向量、值向量都是同一层的中间向量、而编解码器注意力的查询向量是解码端的中间向量,而键向量和值向量则是编码端输出的源语编码向量。
[0005]如图2所示,特征金字塔模型最早是在图像领域提出的,图像领域任务一般采用卷积神经网络,而卷积神经网络由于池化层的存在,天然呈现一种金字塔的形状。在目标检测任务中,由于不同目标的尺度大小不同,而卷积网络中不同层的提取的特征粗细粒度不一样,因此可以看作是不同尺度的图片特征信息。
[0006]由于经过特征金字塔的特征抽取,图片特征的维度会发生改变,变得维度不一致,无法融合,导致在实际应用中无法使用特征金字塔结构来增强图片信息以得到更强大的图片表示。

技术实现思路

[0007]针对现有技术中存在的上述不足,本专利技术提出一种应用特征金字塔的图片字幕生成方法。在将图片送入Vision Transformer模型中进行图片特征的编解码之前,利于特征
金字塔模型更充分地提取图片特征。
[0008]为解决上述技术问题,本专利技术采用的技术方案是:
[0009]一种应用特征金字塔的图片字幕生成方法,包括以下步骤:
[0010]1)将预处理后的图片输入的特征金字塔模块中,通过特征金字塔模块中的多层卷积神经网络将图片进行特征提取,分别抽取出低层卷积神经网络和顶层卷积神经网络的特征图,作为低维度和高维度两种尺度的图片特征信息,和预处理后的图片并称为低维度、高维度、原始维度三种不同尺度的图片特征;
[0011]2)将原始维度图片特征送入嵌入层转换成向量表示;
[0012]3)将三种不同尺度的图片特征送入编码器的第一层中,进行维度缩放,即经过自注意力机制和前馈神经网络将维度不同的图片特征缩放成同一维度大小的隐层信息;
[0013]4)将维度大小一致的隐层信息送入编码器中堆叠的高层得到三种编码器特征,并通过拼接操作得到融合后的图片特征;
[0014]5)将融合后的图片特征送入模型的解码器进行解码,解码器通过堆叠的解码器层将图片特征解码成图片字幕,并通过交叉熵损失函数进行梯度更新,优化模型的权重,得到图片字幕生成方法。
[0015]步骤1)中,对图片数据进行预处理,将图片输入特征金字塔模块中,通过多层卷积神经网络进行特征提取,其中,卷积神经网络的计算方式如下:
[0016][0017]weight(i,j)=w[:,:,i:j][0018]input(x,k)=x[:,:,k][0019]公式中x∈R
H
×
W
×
C
为图片在计算机中的表示张量,H表示图片的高度,W表示图片的宽度,C表示图片的通道数,公式中*表示2D互相关操作,公式中表示卷积核,其中c
out
表示输出特征的通道数,C
in
表示输入特征的通道数,w[:,:,i:j]表示取w的第三维度和第四维度中第i和第j张量,x[:,:,k]表示取x的第三维度中第k张量,公式中b表示偏置常量;weight(i,j)表示卷积神经神经网络中的通道i的第j个卷积核,input(x,k)表示输入x的第k通道的张量;
[0020]取第一层卷积神经网络的输出作为低维度图片特征,取最后一层卷积神经网络的输出作为高维度图片特征;原始图片则作为原始维度图片特征。
[0021]步骤2)中将原始维度图片特征送入嵌入层转换成向量表示,是将原始维度图片特征的高度和宽度调整成规定大小后划分成固定大小的子图片,每个子图片称作patch,再将其送入嵌入层,得到对每一个patch的编码,即图片嵌入向量,具体为:
[0022]201)将图片(batch,c,h,w)划分为每个patch分辨率为p1*p2的子图片,首先,将每张原始维度图片特征切分成(h/p1)*(w/p2)个小块,即从(batch,c,p1*(h/p1),p2*(w/p2))到(batch,c,(h/p1)*(w/p2),p1*p2),再将其转换成(batch,(h/p1)*(w/p2),p1*p2*c),相当于分成了(h/p1)*(w/p2)个patch,每个patch的维度是p1*p2*c;这一过程的实现通过以下计算得到:
[0023]x=rearrange(b,c,(h*p1),(w*p2)

b,(h*w),(p1*p2*c)

)
[0024]其中,rearrange函数是einops库的算子,p1、p2是patch大小,c是通道数,b是batch数,h,w分别是图像的高和宽。
[0025]202)划分子图片后,得到原始维度图片特征的嵌入向量,并对其维度进行调整,即经过一层全连接层调整维度至所需大小。
[0026]步骤3)中,不同维度大小的图片特征送入到编码器的第一层中,而编码器的第一层是由三个不同大小的编码层组成分别对应着三个图片特征,其中编码层是由自注意力机制和前馈神经网络组成,多头自注意力机制的计算方式如下:
[0027][0028]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用特征金字塔的图片字幕生成方法,其特征包括以下步骤:1)将预处理后的图片输入的特征金字塔模块中,通过特征金字塔模块中的多层卷积神经网络将图片进行特征提取,分别抽取出低层卷积神经网络和顶层卷积神经网络的特征图,作为低维度和高维度两种尺度的图片特征信息,和预处理后的图片并称为低维度、高维度、原始维度三种不同尺度的图片特征;2)将原始维度图片特征送入嵌入层转换成向量表示;3)将三种不同尺度的图片特征送入编码器的第一层中,进行维度缩放,即经过自注意力机制和前馈神经网络将维度不同的图片特征缩放成同一维度大小的隐层信息;4)将维度大小一致的隐层信息送入编码器中堆叠的高层得到三种编码器特征,并通过拼接操作得到融合后的图片特征;5)将融合后的图片特征送入模型的解码器进行解码,解码器通过堆叠的解码器层将图片特征解码成图片字幕,并通过交叉熵损失函数进行梯度更新,优化模型的权重,得到图片字幕生成方法。2.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法,其特征在于:步骤1)中,对图片数据进行预处理,将图片输入特征金字塔模块中,通过多层卷积神经网络进行特征提取,其中,卷积神经网络的计算方式如下:weight(i,j)=w[:,:,i:j]input(x,k)=x[:,:,k]公式中x∈R
H
×
W
×
C
为图片在计算机中的表示张量,H表示图片的高度,W表示图片的宽度,C表示图片的通道数,公式中*表示2D互相关操作,公式中表示卷积核,其中c
out
表示输出特征的通道数,C
in
表示输入特征的通道数,w[:,:,i:j]表示取w的第三维度和第四维度中第i和第j张量,x[:,:,k]表示取x的第三维度中第k张量,公式中b表示偏置常量;weight(i,j)表示卷积神经神经网络中的通道i的第j个卷积核,input(x,k)表示输入x的第k通道的张量,取第一层卷积神经网络的输出作为低维度图片特征,取最后一层卷积神经网络的输出作为高维度图片特征;原始图片则作为原始维度图片特征。3.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法,其特征在于:步骤2)中将原始维度图片特征送入嵌入层转换成向量表示,是将原始维度图片特征的高度和宽度调整成规定大小后划分成固定大小的子图片,每个子图片称作patch,再将其送入嵌入层,得到对每一个patch的编码,即图片嵌入向量,具体为:201)将图片(batch,c,h,w)划分为每个patch分辨率为p1*p2的子图片,首先,将每张原始维度图片特征切分成(h/p1)*(...

【专利技术属性】
技术研发人员:徐萍毕东
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1