一种融合局部和全局特征的图像语义理解算法制造技术

技术编号:34034139 阅读:25 留言:0更新日期:2022-07-06 11:52
本发明专利技术属于图像描述领域,具体为一种融合局部和全局特征的图像语义理解方法。图像中包含丰富的语义信息,包括图像中的目标、目标的属性以及不同目标之间的相互关系等,传统的目标检测、图像分割等技术并不能达到挖掘所有这些信息的目的,给图片生成文字描述的图像语义理解算法可以深入挖掘图片中的各种语义信息,对于理解图片的内容,缩减图片和文字之间的“语义鸿沟”具有重大意义。当前的图像语义理解算法依赖于计算机视觉和自然语言处理技术的发展,主要使用在机器翻译领域流行的编解码框架,其中编码器提取图像特征,解码器将提取的图像特征翻译成文字描述。然而当前的编码器大多采用基于目标检测的方法,这样往往会丢失图像背景和一些细节信息,使得描述效果不够理想。因此本发明专利技术对基于编解码框架的的图像语义理解算法进行了相应改进,提高编码器提取图像特征的能力,从而使得生成的描述语句更加准确。确。确。

An image semantic understanding algorithm combining local and global features

【技术实现步骤摘要】
一种融合局部和全局特征的图像语义理解算法


[0001]本专利技术属于图像描述领域,具体涉及一种融合局部和全局特征的图像语义理解方法。

技术介绍

[0002]图像中包含丰富的语义信息,包括图像中的目标、目标的属性以及不同目标之间的相互关系等,传统的目标检测、图像分割等技术并不能达到挖掘所有这些信息的目的,给图片生成文字描述的图像语义理解算法可以深入挖掘图片中的各种语义信息,对于理解图片的内容,缩减图片和文字之间的“语义鸿沟”具有重大意义。当前的图像语义理解算法依赖于计算机视觉和自然语言处理技术的发展,主要使用在机器翻译领域流行的编解码框架,其中编码器提取图像特征,解码器将提取的图像特征翻译成文字描述。

技术实现思路

[0003]本专利技术要解决的技术问题是:基于编解码框架的图像语义理解算法框架进行改进,改进后算法的效果比原算法更好。
[0004]本专利技术基于Bottom

Up Attention的编解码框架进行改进,包括以下步骤:
[0005]步骤1:输入一张图像,使用Resnet101网络对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合局部和全局特征的图像语义理解算法,其特征在于,包括下列步骤:步骤1:输入一张图像,使用Resnet101网络对图像提取全局特征;步骤2:对提取到的全局特征进行多尺度池化操作;步骤3:将全局特征和多尺度池化操作之后的特征进行拼接操作;步骤4:对拼接之后的特征进行均匀池化得到与bottom

up同维度的特征向量;步骤5:将bottom

up特征和步骤4中均匀池化之后的特征一起输入到融合网络进行融合,得到融合特征;步骤6:将步骤4中均匀池化之后的特征和上一时刻生成的单词的词向量以及第二层LSTM上一时刻的隐藏层的输出拼接之后输入第一层LSTM网络;步骤7:将步骤5的融合特征和第一层LSTM的输出拼接之后输入第二层LSTM;步骤8:将第二层LSTM当前时刻的隐藏层输出输入到softmax层,得到单词的概率分布;步骤9:根据步骤8的单词的概率分布,将分布值最大的值对应的单词作为输出,得到当前时刻生成的单词;步骤10:将每个时刻输出的单词按序组合成描述语句,直到输出结束标志符或者输出达到最大长度时,得到的语句为图像的描述语句。2.根据权利要求1所述的融合局部和全局特征的图像语义理解算法,其特征在于,所述步骤1中提取全局特征的方法具体为:步骤101:使用在ImageNet上面预训练的Resnet101网络处理图像,取resnet101第四个卷积块conv4_x的最后一层res4b22c的输出特征图。3.根据权利要求1所述的融合局部和全局特征的图像语义理解算法,其特征在于,所述步骤2中多尺度池化的操作方法具体为:步骤201:采...

【专利技术属性】
技术研发人员:贾海涛王云余梦鹏李玉琳张钰琪李彧任利贾宇明
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1