一种融合局部和全局特征的图像语义理解算法制造技术

技术编号:34034139 阅读:11 留言:0更新日期:2022-07-06 11:52
本发明专利技术属于图像描述领域,具体为一种融合局部和全局特征的图像语义理解方法。图像中包含丰富的语义信息,包括图像中的目标、目标的属性以及不同目标之间的相互关系等,传统的目标检测、图像分割等技术并不能达到挖掘所有这些信息的目的,给图片生成文字描述的图像语义理解算法可以深入挖掘图片中的各种语义信息,对于理解图片的内容,缩减图片和文字之间的“语义鸿沟”具有重大意义。当前的图像语义理解算法依赖于计算机视觉和自然语言处理技术的发展,主要使用在机器翻译领域流行的编解码框架,其中编码器提取图像特征,解码器将提取的图像特征翻译成文字描述。然而当前的编码器大多采用基于目标检测的方法,这样往往会丢失图像背景和一些细节信息,使得描述效果不够理想。因此本发明专利技术对基于编解码框架的的图像语义理解算法进行了相应改进,提高编码器提取图像特征的能力,从而使得生成的描述语句更加准确。确。确。

An image semantic understanding algorithm combining local and global features

【技术实现步骤摘要】
一种融合局部和全局特征的图像语义理解算法


[0001]本专利技术属于图像描述领域,具体涉及一种融合局部和全局特征的图像语义理解方法。

技术介绍

[0002]图像中包含丰富的语义信息,包括图像中的目标、目标的属性以及不同目标之间的相互关系等,传统的目标检测、图像分割等技术并不能达到挖掘所有这些信息的目的,给图片生成文字描述的图像语义理解算法可以深入挖掘图片中的各种语义信息,对于理解图片的内容,缩减图片和文字之间的“语义鸿沟”具有重大意义。当前的图像语义理解算法依赖于计算机视觉和自然语言处理技术的发展,主要使用在机器翻译领域流行的编解码框架,其中编码器提取图像特征,解码器将提取的图像特征翻译成文字描述。

技术实现思路

[0003]本专利技术要解决的技术问题是:基于编解码框架的图像语义理解算法框架进行改进,改进后算法的效果比原算法更好。
[0004]本专利技术基于Bottom

Up Attention的编解码框架进行改进,包括以下步骤:
[0005]步骤1:输入一张图像,使用Resnet101网络对图像提取全局特征;
[0006]其中步骤1的具体步骤为:
[0007]步骤101:使用在ImageNet上面预训练的Resnet101网络处理图像,取 resnet101第四个卷积块conv4_x的最后一层res4b22c的输出特征图。
[0008]步骤2:对提取到的全局特征进行多尺度池化操作;
[0009]其中步骤2的具体步骤为:
[0010]步骤201:采用平均池化方式,处理步骤101的输出,得到1
×1×
C、2
×2ꢀ×
C、3
×3×
C和6
×6×
C的结果;
[0011]步骤202:使用1
×
1卷积核对步骤201池化之后的四种不同尺度的特征图进行降维得到1
×1×
C/4、2
×2×
C/4、3
×3×
C/4和6
×6×
C/4的结果;
[0012]步骤203:使用双线性插值的方法对步骤202的输出进行上采样,上采样之后的维度为14
×
14;
[0013]步骤204:将步骤203的输出进行拼接得到14
×
14
×
C的输出。
[0014]步骤3:将全局特征和多尺度池化操作之后的特征进行拼接操作;
[0015]步骤4:对拼接之后的特征进行均匀池化得到与bottom

up同维度的特征向量;
[0016]步骤5:将bottom

up特征和步骤4中均匀池化之后的特征一起输入到融合网络进行融合,得到融合特征;
[0017]其中步骤5的具体步骤为:
[0018]步骤501:融合网络模块在输入LSTM隐藏状态和全局特征与局部特征之后,使用双曲正切tanh激活函数处理得到全局和各个局部特征分量的权重;
[0019]步骤502:使用softmax对前面的权重进行归一化处理,将归一化处理得到的权重与对应的特征向量相乘再累加就得到融合特征。
[0020]步骤6:将步骤4中均匀池化之后的特征和上一时刻生成的单词的词向量以及第二层LSTM上一时刻的隐藏层的输出拼接之后输入第一层LSTM网络;
[0021]步骤7:将步骤5的融合特征和第一层LSTM的输出拼接之后输入第二层 LSTM;
[0022]步骤8:将第二层LSTM当前时刻的隐藏层输出输入到softmax层,得到单词的概率分布;
[0023]步骤9:根据步骤8的单词的概率分布,将分布值最大的值对应的单词作为输出,得到当前时刻生成的单词;
[0024]其中步骤9的具体步骤为:
[0025]步骤901:根据步骤8中得到的单词概率分布,使用argmax函数处理概率分布,得到最大概率值对应的索引,从词汇表中输出索引对应的单词即为当前时刻生成的单词。
[0026]步骤10:将每个时刻输出的单词按序组合成描述语句,直到输出结束标志符或者输出达到最大长度时,得到的语句为图像的描述语句。
[0027]综上所述,由于采用了上述技术方案,本专利技术的有益效果是:
[0028](1)解决了传统编码器使用目标检测算法提取图像特征时只能提取显著目标特征而忽略图像背景的问题,从而使得生成的描述更加详细;
[0029](2)对提取的全局特征进行多尺度池化操作使得提取的特征包含更多的多尺度和多通道信息,可以更加准确的指导解码器生成图像描述。
[0030](3)对全局特征和局部特征使用自适应分配权重的方法进行融合,可以避免全局特征中引入的噪声对生成的描述产生干扰。
附图说明
[0031]图1融合局部和全局特征的图像语义理解算法的网络框架图
[0032]图2 Faster R

CNN提取语义特征的结果图
[0033]图3多尺度池化框架图
[0034]图4融合框架图
[0035]图5双层LSTM架构图
具体实施方式
[0036]融合局部和全局特征的图像语义理解算法的网络结构如图1所示。
[0037]在基于编解码框架的图像语义理解算法中,往往采用基于目标检测的 faster

RCNN网络提取图像特征,然后再将提取的特征输入到解码器解码生成文字描述,但是由于目标检测算法的特点,目标检测算法一般只能检测到图片中显著的目标,而对于一些背景和细小目标却往往会被丢失掉,使用Faster R

CNN 提取语义特征的结果如图2所示,图片中的天空和雪地被忽视了,这样的特征输入到解码器之后,由于缺少图片完整的信息,必然会使得生成的描述语句不能完整准确的描述图片内容。
[0038]Resnet网络通过引入残差连接可以极大的增加网络的深度,可以有效的挖掘图像的信息,在图像语义理解领域常被用来提取图像的全局特征,为了充分提取特征的多尺度
和多通道信息,这里对resnet提取的特征进行多尺度池化操作,多尺度池化方式如图3所示,从四个不同的尺度来提取图像特征,常见的池化方式有平均池化和最大池化,但是最大池化不能反映特征图的整体分布情况,因此为了能够充分反映特征图的整体分布情况,在我们的模型中,统一采用了平均池化的方式;最上面一个分支,采用全局池化的方式,可以提取全局上下文信息,但是它缺失了图片的空间位置等信息;下面三个分支分别采用不同的尺度进行池化,使得池化之后的特征图的维度分别为2
×2×
C、3
×3×
C和6
×6×
C。池化之后使用1
×
1卷积核对四种不同尺度的特征图进行降维,使得维度变成C/4,同时还可以挖掘不同通道之间的相互关系,增加非线性。在降维之后,为了方便后续的拼接,采用双线性插值对四种尺度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合局部和全局特征的图像语义理解算法,其特征在于,包括下列步骤:步骤1:输入一张图像,使用Resnet101网络对图像提取全局特征;步骤2:对提取到的全局特征进行多尺度池化操作;步骤3:将全局特征和多尺度池化操作之后的特征进行拼接操作;步骤4:对拼接之后的特征进行均匀池化得到与bottom

up同维度的特征向量;步骤5:将bottom

up特征和步骤4中均匀池化之后的特征一起输入到融合网络进行融合,得到融合特征;步骤6:将步骤4中均匀池化之后的特征和上一时刻生成的单词的词向量以及第二层LSTM上一时刻的隐藏层的输出拼接之后输入第一层LSTM网络;步骤7:将步骤5的融合特征和第一层LSTM的输出拼接之后输入第二层LSTM;步骤8:将第二层LSTM当前时刻的隐藏层输出输入到softmax层,得到单词的概率分布;步骤9:根据步骤8的单词的概率分布,将分布值最大的值对应的单词作为输出,得到当前时刻生成的单词;步骤10:将每个时刻输出的单词按序组合成描述语句,直到输出结束标志符或者输出达到最大长度时,得到的语句为图像的描述语句。2.根据权利要求1所述的融合局部和全局特征的图像语义理解算法,其特征在于,所述步骤1中提取全局特征的方法具体为:步骤101:使用在ImageNet上面预训练的Resnet101网络处理图像,取resnet101第四个卷积块conv4_x的最后一层res4b22c的输出特征图。3.根据权利要求1所述的融合局部和全局特征的图像语义理解算法,其特征在于,所述步骤2中多尺度池化的操作方法具体为:步骤201:采...

【专利技术属性】
技术研发人员:贾海涛王云余梦鹏李玉琳张钰琪李彧任利贾宇明
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1