一种应用特征金字塔的图片字幕生成方法技术

技术编号：34252704 阅读：47 留言：0更新日期：2022-07-24 11:56

本发明专利技术公开一种应用特征金字塔的图片字幕生成方法，步骤为：将预处理后的图片输入特征金字塔模块中，抽取特征图作为图片特征信息，和预处理后的图片并称为低维度、高维度、原始维度三种不同尺度的图片特征；将原始维度图片特征送入嵌入层转换成向量表示；将三种不同尺度的图片特征送入编码器的第一层，进行维度缩放；将维度大小一致的隐层信息送入编码器中堆叠的高层得到三种编码器特征，通过拼接得到融合后的图片特征送入模型的解码器进行解码；通过交叉熵损失函数进行梯度更新，优化模型权重，得到图片字幕生成方法。本发明专利技术从图片的不同角度和不同的视野距离来增强图片的语义表达能力有效降低了编码器中自注意力机制和前馈神经网络的计算成本。馈神经网络的计算成本。馈神经网络的计算成本。

A method of image caption generation using feature pyramid

全部详细技术资料下载

【技术实现步骤摘要】
一种应用特征金字塔的图片字幕生成方法

[0001]本专利技术涉及一种图像及语言处理技术，具体一种基于特征金字塔的图片字幕生成方法。

技术介绍

[0002]图像字幕(Image Caption)可以认为是一种全局的目标检测任务，是由整张图片来生成一个描述图片内容的句子。早期的图像字幕生成方法是基于传统机器学习的，包括使用一些图像处理的算子来提取出图像的特征，使用支持向量机等进行分类以得到图像中的目标，再将得到的目标及其属性作为生成句子的依据，例如，利用CRF或者是一些认为制定的规则来恢复成对图像的描述。这样的做法在实际应用中并不理想，非常依赖于1)图像特征的提取2)生成句子时所需要的规则。
[0003]深度学习促进了计算机视觉的迅速发展。图像编码和特征提取大大受益于CNN的发展。随着VGG等深度CNN编码器的出现，图像识别等任务准确率迅速提高。由于CNN强大的图像特征提取能力，在image caption任务中使用深度CNN网络作为图像特征编码器成为主流的做法。谷歌在2014年提出Neural Image Caption模型算是这种方法的开山之作。随后的Neural Talk等对Image caption发展有较大影响的模型几乎都沿用了这个基本框架。
[0004]随着Transformer模型在自然语言处理领域中越来越流行，越来越受人推崇，在图片领域现在也有大量的工作在尝试使用Transformer来提取更加强大的图像特征。目前由Transformer改进而来的Vision Transformer已经有...

【技术保护点】

【技术特征摘要】
1.一种应用特征金字塔的图片字幕生成方法，其特征包括以下步骤：1)将预处理后的图片输入的特征金字塔模块中，通过特征金字塔模块中的多层卷积神经网络将图片进行特征提取，分别抽取出低层卷积神经网络和顶层卷积神经网络的特征图，作为低维度和高维度两种尺度的图片特征信息，和预处理后的图片并称为低维度、高维度、原始维度三种不同尺度的图片特征；2)将原始维度图片特征送入嵌入层转换成向量表示；3)将三种不同尺度的图片特征送入编码器的第一层中，进行维度缩放，即经过自注意力机制和前馈神经网络将维度不同的图片特征缩放成同一维度大小的隐层信息；4)将维度大小一致的隐层信息送入编码器中堆叠的高层得到三种编码器特征，并通过拼接操作得到融合后的图片特征；5)将融合后的图片特征送入模型的解码器进行解码，解码器通过堆叠的解码器层将图片特征解码成图片字幕，并通过交叉熵损失函数进行梯度更新，优化模型的权重，得到图片字幕生成方法。2.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法，其特征在于：步骤1)中，对图片数据进行预处理，将图片输入特征金字塔模块中，通过多层卷积神经网络进行特征提取，其中，卷积神经网络的计算方式如下：weight(i,j)＝w[:,:,i:j]input(x,k)＝x[:,:,k]公式中x∈R
H
×
W
×
C
为图片在计算机中的表示张量，H表示图片的高度，W表示图片的宽度，C表示图片的通道数，公式中*表示2D互相关操作，公式中表示卷积核,其中c
out
表示输出特征的通道数，C
in
表示输入特征的通道数，w[:,:,i:j]表示取w的第三维度和第四维度中第i和第j张量，x[:,:,k]表示取x的第三维度中第k张量，公式中b表示偏置常量；weight(i,j)表示卷积神经神经网络中的通道i的第j个卷积核，input(x,k)表示输入x的第k通道的张量，取第一层卷积神经网络的输出作为低维度图片特征，取最后一层卷积神经网络的输出作为高维度图片特征；原始图片则作为原始维度图片特征。3.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法，其特征在于：步骤2)中将原始维度图片特征送入嵌入层转换成向量表示，是将原始维度图片特征的高度和宽度调整成规定大小后划分成固定大小的子图片，每个子图片称作patch，再将其送入嵌入层，得到对每一个patch的编码，即图片嵌入向量，具体为：201)将图片(batch，c，h，w)划分为每个patch分辨率为p1*p2的子图片，首先，将每张原始维度图片特征切分成(h/p1)*(...

【专利技术属性】
技术研发人员：徐萍，毕东，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人