一种基于双重注意力机制层次网络的图像语义生成方法技术

技术编号:22643293 阅读:32 留言:0更新日期:2019-11-26 16:32
本发明专利技术提出一种基于序列化双重注意力机制层次网络的图像语义生成方法,该方法基于ResNet‑152网络模型、LSTM的双层堆栈RNN网络,不仅可以检测出图像的粗粒度特征信息,还可以检测出图像子区域中的细粒度特征信息,使用粗粒度‑细粒度的层次网络结构生成详细的图像语义描述信息,提高图像语义信息生成方法的鲁棒性。

An image semantic generation method based on hierarchical network of dual attention mechanism

The method is based on RESNET \u2011 152 network model and LSTM double stack RNN network. It can not only detect the coarse-grained feature information of the image, but also detect the fine-grained feature information in the sub region of the image, and use the coarse-grained \u2011 fine-grained hierarchical network structure to generate details To improve the robustness of image semantic information generation method.

【技术实现步骤摘要】
一种基于双重注意力机制层次网络的图像语义生成方法
本专利技术属于图像处理及模式识别领域,尤其涉及一种基于序列化双重注意力机制层次网络的图像语义生成方法。
技术介绍
图像语义自动生成技术作为连接图像与文字的桥梁,对于语义图像搜索及聊天机器人视觉监控系统等场景理解应用领域中具有重要作用。图像语义生成技术的目标在于机器生成的文字能够尽可能地精确表达出图像内容,具有良好的发展和应用前景。图像语义生成技术主要有:模板匹配法、检索法、人工神经网络。模板匹配法通过将预测的名词、动词和语态填充到预定义的句法结构内生成描述语句。早期的模板匹配法仅仅对图像中的内容进行直译,缺少度量图像与描述文字之间的相互关系。Farhadi等提出通过使用中间特征向量计算置信关联度描述图像与文字之间的关系。Kulkarni等提出利用统计学习的方法解析学习大量的文本数据,并且使用计算机视觉中的目标识别算法检测图像中的目标特征,达到生成与图像内容更相关的文字描述。Yang等提出使用隐马尔科夫模型整合图像感知和语义生成过程,但该算法对于错误检测出的目标无法生成准确的文字描述。检索法重复检索使用固定标签图像的描述语句,无法生成新颖的文字描述。Kuznetsova等提出数据驱动模式的启发式方法,同时利用图像特征和语言描述特征生成语义。给定原始图像,该方法利用图像相似度值从语义专家库中检索人类标注语句。Mason等提出非参数密度估计方法从多种语义中检索出最适宜的文字描述。上述两种方法都需要预先定义语义模板,并且不能根据不同的图像内容生成新颖的文字描述。人工神经网络使用编码-解码框架生成语义描述,首先使用编码器将图像映射为固定长度的向量,然后将解码器利用该向量生成最终的文字描述。目前编码器的底层实现使用卷积神经网络技术,例如CNNs,解码器的底层实现使用循环神经网络技术,例如RNNs。人工神经网络方法的优势在于无需预定义固定句法模板的前提下,可自行生成新颖文字描述内容。然而,现有的方法仅能够检测出图像的粗粒度特征信息,只可使用相似的文字描述图像的主旨内容,缺少对图像细节信息的文字描述。
技术实现思路
针对现有技术中无法生成完整的图像语义描述的不足,本专利技术提出一种基于序列化双重注意力机制层次网络的图像语义生成方法,该方法不仅可以检测出图像的粗粒度特征信息,还可以检测出图像子区域中的细粒度特征信息,使用粗粒度-细粒度的层次网络结构生成详细的图像语义描述信息,提高图像语义信息生成方法的鲁棒性。本专利技术的上述目的通过独立权利要求的技术特征实现,从属权利要求以另选或有利的方式发展独立权利要求的技术特征。为达成上述目的,本专利技术所采用的技术方案如下:一种基于双重注意力机制层次网络的图像语义生成方法,其实现包括以下步骤:步骤1、原始图像采集及预处理,对采集的原始图像进行尺度归一化,得到大小和分辨率统一的图像,将图像大小设置为224X224像素;步骤2、获取粗粒度视觉特征信息:1)、使用ResNet-152网络模型从每幅原始图像中提取出的全局图像特征维度向量,并设置固定维度为2048维;2)、使用ResNet-152网络模型通过池化层的平均池化操作提取子空间特征映射图集合,平均池化层窗口大小为14X14像素;步骤3、获得细粒度视觉特征信息:将预处理过的原始图像作为Faster-RCNN网络模型的输入,得到原始图像中的目标特征和属性特征,合并得到细粒度视觉特征信息,目标特征和属性特征的特征向量维度为2048维,所述的目标特征为原始图像中检测目标的边界框,所述属性特征为原始图像中检测目标的类别标签;步骤4、使用序列化双重注意力机制网络模型融合不同细粒度的图像特征;步骤5、将步骤4的输出结果输入基于LSTM的双层堆栈RNN网络的语义生成模型,生成最终的图像语义描述文本,并且使用LSTM结构单元处理累积的长序列信息。其中,边界框中包含检测目标丰富的视觉信息。其中,利用1X1卷积核将每一个子空间特征映射图映射到固定维度为2048维向量。所述不同细粒度的图像特征,包括语义生成模型的隐含层信息、子空间特征映射图集合、目标特征和属性特征。所述目标特征和属性特征的特征向量维度为2048维,是通过使用1024维的中间层将目标特征和属性特征映射到2048维。所述序列化双重注意力机制网络模型融合不同细粒度的图像特征的方法是:1)、使用余弦相似度度量准则计算特征信息向量之间的相似度,;2)、使用条件概率密度函数更新每个时间戳中输入特征的权重值,上式中权重值满足限制条件:;3)、在空间注意力机制中,分别使用步骤1和步骤2中的计算公式计算某一时刻t,每个子空间映射图与隐含状态之间的相似度和注意力权重。然后,使用计算后的相似度和注意力权重的值计算融合特征向量,;4)、在目标注意力机制中,某一时刻t,使用步骤3中的融合特征向量计算每个特征向量的注意力权值,。本专利技术提出的基于序列化双重注意力机制层次网络的图像语义生成方法,能够从原始图像中提取出不同细粒度的视觉信息,包括:全局图像特征、子空间特征映射图集合、目标特征和属性特征,该方法将上述所有的特征以序列化的方式进行处理并生成文字描述信息。从而在整体上提高特征的可识别性,能够很大程度上提升图像语义文字生成的准确度和正确率。相对于现有技术,其有益效果体现在以下几个方面:1、本专利技术基于序列化的双重注意力机制进行生成语义,该网络结构可融合不同细粒度的视觉特征信息,提高语义生成的鲁棒性;2、本专利技术基于层次结构化的处理流程,由粗粒度向细粒度的不断进行特征提取与抽象,使得网络结构能够发现原始图像中更多的细节信息,进而生成完整的语义描述;3、本专利技术基于ResNet-152和Faster-RCNN神经网络结构,其都属于深度卷积神经网络,通过所构建的多层卷积结构,由低层次向高层次进行特征抽象,因而能够提高算法的抗干扰能力和识别率。与传统的机器学习算法相比,具有大幅度的提高。附图说明图1为本专利技术基于序列化双重注意力机制层次网络的图像语义生成方法的流程示意图;图2为本专利技术基于序列化双重注意力机制层次网络的图像语义生成方法采用的序列化双重注意力机制原理图;图3为本专利技术基于序列化双重注意力机制层次网络的图像语义生成方法采用的语义生成模型原理图;图4为本专利技术基于序列化双重注意力机制层次网络的图像语义生成方法采用的语义生成模型使用的LSTM单元结构图。具体实施方式为了更了解本专利技术的
技术实现思路
,下面结合附图对本专利技术的具体实施方式进行详细说明。S1:原始图像采集及预处理S11:对采集的原始图像进行尺度归一化,得到大小和分辨率统一的图像,将图像大小设置为224X224像素。S2:使用ResNet-152网络模型提取全局图像特征S21:使用大规模Ima本文档来自技高网
...

【技术保护点】
1.一种基于双重注意力机制层次网络的图像语义生成方法,其实现包括以下步骤:/n步骤1、原始图像采集及预处理,对采集的原始图像进行尺度归一化,得到大小和分辨率统一的图像,将图像大小设置为224X224像素;/n步骤2、获取粗粒度视觉特征信息:/n1)、使用ResNet-152网络模型从每幅原始图像中提取出的全局图像特征维度向量,并设置固定维度为2048维;/n2)、使用ResNet-152网络模型通过池化层的平均池化操作提取子空间特征映射图集合,平均池化层窗口大小为14X14像素;/n步骤3、获得细粒度视觉特征信息:/n将预处理过的原始图像作为Faster-RCNN网络模型的输入,得到原始图像中的目标特征和属性特征,合并得到细粒度视觉特征信息,目标特征和属性特征的特征向量维度为2048维,所述的目标特征为原始图像中检测目标的边界框,所述属性特征为原始图像中检测目标的类别标签;/n步骤4、使用序列化双重注意力机制网络模型融合不同细粒度的图像特征;/n步骤5、将步骤4的输出结果输入基于LSTM的双层堆栈RNN网络的语义生成模型,生成最终的图像语义描述文本,并且使用LSTM结构单元处理累积的长序列信息。/n...

【技术特征摘要】
1.一种基于双重注意力机制层次网络的图像语义生成方法,其实现包括以下步骤:
步骤1、原始图像采集及预处理,对采集的原始图像进行尺度归一化,得到大小和分辨率统一的图像,将图像大小设置为224X224像素;
步骤2、获取粗粒度视觉特征信息:
1)、使用ResNet-152网络模型从每幅原始图像中提取出的全局图像特征维度向量,并设置固定维度为2048维;
2)、使用ResNet-152网络模型通过池化层的平均池化操作提取子空间特征映射图集合,平均池化层窗口大小为14X14像素;
步骤3、获得细粒度视觉特征信息:
将预处理过的原始图像作为Faster-RCNN网络模型的输入,得到原始图像中的目标特征和属性特征,合并得到细粒度视觉特征信息,目标特征和属性特征的特征向量维度为2048维,所述的目标特征为原始图像中检测目标的边界框,所述属性特征为原始图像中检测目标的类别标签;
步骤4、使用序列化双重注意力机制网络模型融合不同细粒度的图像特征;
步骤5、将步骤4的输出结果输入基于LSTM的双层堆栈RNN网络的语义生成模型,生成最终的图像语义描述文本,并且使用LSTM结构单元处理累积的长序列信息。


2.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法,其特征在于:边界框中包含检测目标丰富的视觉信息。


3.根据权利要求1所述的基于双重注意力机制层次...

【专利技术属性】
技术研发人员:郭杨刘康佐江宏常青管志斌高鑫关瑞荣郭素芳
申请(专利权)人:山西潞安环保能源开发股份有限公司五阳煤矿中国矿业大学北京
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1