一种基于实例分割的图像语义描述改进方法技术

技术编号:32784993 阅读:19 留言:0更新日期:2022-03-23 19:44
本发明专利技术属于图像描述领域,具体涉及一种基于实例分割的图像语义描述的改进方法。随着图像语义理解技术的发展,如何能有效的提取图像中蕴藏的高层语义信息成为科研工作者中热门研究的课题,但目前为止图像描述任务依然没有达到令人满意的效果。图像描述试图通过一句话描述图像的全部内容,但是实现图像描述的经典的编解码框架在编码端往往尝试使用基于网格划分和目标检测的卷积神经网络来提取图像特征,使得提取图像特征中容易丢失背景信息,或者不同区域的特征存在信息重合的问题,从而导致生成描述的语句出现丢失重点信息或者信息冗余的问题。因此本发明专利技术对基于编解码框架的的图像语义描述算法进行了相应改进,提高编码器提取图像特征的能力,从而使得生成的描述语句更加准确。更加准确。

【技术实现步骤摘要】
一种基于实例分割的图像语义描述改进方法


[0001]本专利技术属于图像描述领域,具体涉及一种基于实例分割的图像语义描述改进方法。

技术介绍

[0002]实例分割不仅可以提取出图像中的目标,同时还能给出基于像素级别的分类,相当于同时解决了图像目标检测和图像语义分割的任务,但是图像的内容丰富多彩,即使是不同的目标之间,他们也存在诸多的联系,通过为图像生成语句描述,可以提取出图片中丰富的语义信息,不仅可以获取图片中的目标,还能得到目标的属性,同时还可以获取目标之间的相互关系,借助于机器翻译领域经典的编解码框架,将图像视作一种语言,而描述语句视为另外一种语言的编解码框架成为图像语义描述的经典框架模型。

技术实现思路

[0003]本专利技术要解决的技术问题是:对经典的基于编解码框架的图像语义描述框架进行改进,改进后算法的精度比原算法更高。
[0004]本专利技术基于Bottom

Up and Top

Down的编解码框架进行改进,包括以下步骤:
[0005]步骤1:输入一张图像,对图像进行实例分割提取实例区域;
[0006]其中步骤1的具体步骤为:
[0007]步骤101:实例分割采用Mask RCNN网络,提取图片得到k个实例区域;
[0008]步骤2:对提取到的实例区域通过CNN提取特征;
[0009]步骤3:将提取到的特征输入到注意力模块;
[0010]步骤4:通过注意力机制给提取到的特征分配权重,并且融合特征
[0011]其中步骤4的具体步骤为:
[0012]步骤401:将步骤2提取的特征向量和上一时刻输出的单词对应的词向量以及Top

Down LSTM中的语句LSTM中上一时刻的隐藏状态拼接成一个向量;
[0013]步骤402:将拼接好的向量输入Top

Down LSTM中的注意力LSTM,经过注意力LSTM处理之后得到输出的隐藏状态,把它输入到注意力机制模块。
[0014]步骤403:注意力机制模块对输入的隐藏状态和输入的特征向量融合之后,使用双曲正切tanh激活函数处理得到各个特征向量的权重。
[0015]步骤404:使用softmax对前面的权重进行归一化处理,将归一化处理得到的权重与对应的特征向量相乘再累加输入Top

Down LSTM中的语句LSTM。
[0016]步骤5:将融合特征和上一时刻生成的单词的词向量输入当前时刻的LSTM隐藏层;
[0017]步骤6:LSTM隐藏层计算得到当前时刻的输出单词的概率分布;
[0018]其中步骤6的具体步骤为:
[0019]步骤601:将加权处理之后的特征向量和Top

Down LSTM中的注意力LSTM的输出隐藏层状态拼接之后输入Top

Down LSTM中的语句LSTM,经过语句LSTM的处理,再使用
softmax归一化处理,得到每个单词对应的概率,概率最大的值对应的索引就是词典中单词对应的索引。
[0020]步骤7:通过概率分布,输出最大概率索引对应的单词;
[0021]其中步骤7的具体步骤为:
[0022]求出输出概率分布的最大值对应的下标号,从构造的词典中找到对应的下标号的单词。
[0023]步骤8:输出结束标志符或者输出达到最大长度时,所有输出的单词按序组成的句子为输入图像的描述语句。
[0024]综上所述,由于采用了上述技术方案,本专利技术的有益效果是:
[0025](1)解决了传统编解码框架中使用基于目标检测的编码器提取图像特征时存在的区域重合从而导致生成描述中语义重复不准确的问题;
[0026](2)基于实例分割的编码器将提取图像中的所有实例目标,解决了传统编码器忽略图像背景的问题,从而使得生成的描述更加详细。
附图说明
[0027]图1改进后图像语义描述算法的网络框架图
[0028]图2常用编码器提取语义特征结果对比图
[0029]图3基于实例分割的编码器提取语义特征结果图
[0030]图4双层LSTM架构图
[0031]图5LSTM内部结构
具体实施方式
[0032]图像语义描述算法改进后的网络结构如图1所示。
[0033]经典Bottom

Up and Top

Down的编解码框架中通过使用Faster R

CNN提取图像感兴趣目标区域,然后将提取的目标特征输入到解码器生成图像描述语句,对于简单场景下,这种做法能生成较为理想的描述语句,但是对于复杂场景下,目标如果出现相互重叠的情况则会使得提取的不同的区域出现目标重合的情况,这将使得不同的区域提取的特征出现特征重合的问题,在解码的过程中将使得生成的语句中出现重复的词语或者语句冗余的问题。另外使用VGG等基于网格划分的编码器,将图像均匀的分割成14
×
14个网格大小,但是会出现一个目标被分割在多个网格中,在解码的过程中无法对目标进行准确的描述。基于VGG和Faster R

CNN提取语义特征的结果如图2所示。
[0034]实例分割算法可以有效的从像素级别提取出目标,使得图像中的每一个像素都有一个单独的类别,不会出现目标重叠的情况,也不会出现一个目标被分割在多个不同的网格中,因此使用实例分割算法将有效的解决上述描述中问题,如图3为使用实例分割算法对图2中的同一张图片处理的结果。具体使用Mask RCNN网络提取出图像中的k个目标区域,得到的区域使用CNN提取特征,提取的特征为v=(v1,v2,v3……
v
k
),其中vi∈R1×
512
,每个特征的维度为512,如图4所示为结合注意力注意力机制的双层LSTM架构图,其中图5为LSTM内部结构图,在LSTM中位于下面的是注意力LSTM,主要用来给图像特征分配注意力权重,上面的是语句LSTM,主要用来生成当前时刻的单词的概率分布。从v可以得到图像的全局特征
在图4中,我们把语句LSTM的上一时刻的输出h
t

12
全局特征以及上一时刻输出的单词的词向量拼接在一起得到注意力LSTM的输入x
t1
如下:
[0035][0036]其中W
e

R
×
N
,E是词汇表中单词的数量,N是每个词向量的维度,因为前面图片特征的维度为512,所以这里的N为512。拼接的三个变量分别代表了输出的语句的上下文、图像全局特征和上一时刻的输出单词。
[0037]注意力LSTM的输出h
t
和局部特征向量v=(v1,v2,v3……
v
k
)一起作为输入,输入到注意力机制得到t时刻每个特征向量vi本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于实例分割的图像语义描述改进方法,其特征在于,包括下列步骤:步骤1:输入一张图像,对图像进行实例分割提取实例区域;步骤2:对提取到的实例区域通过CNN提取特征;步骤3:将提取到的特征输入到注意力模块;步骤4:通过注意力机制给提取到的特征分配权重,并且融合特征;步骤5:将融合特征和上一时刻生成的单词的词向量输入当前时刻的LSTM隐藏层;步骤6:LSTM隐藏层计算得到当前时刻的输出单词的概率分布;步骤7:通过概率分布,输出最大概率索引对应的单词;步骤8:输出结束标志符或者输出达到最大长度时,所有输出的单词按序组成的句子为输入图像的描述语句。2.根据权利要求1所述的基于实例分割的图像语义描述改进方法,其特征在于,所述步骤1中通过实例分割的方法具体为:步骤101:实例分割采用MaskRCNN网络,提取图片得到k个实例区域。3.根据权利要求1所述的基于实例分割的图像语义描述改进方法,其特征在于,所述步骤4中注意力机制的处理方法具体为:步骤401:将步骤2提取的特征向量和上一时刻输出的单词对应的词向量以及Top

DownLSTM中的语句LS...

【专利技术属性】
技术研发人员:胡皓晖王云周焕来李玉琳余梦鹏张诗涵陈昊男贾海涛
申请(专利权)人:一拓通信集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1