The method is based on RESNET \u2011 152 network model and LSTM double stack RNN network. It can not only detect the coarse-grained feature information of the image, but also detect the fine-grained feature information in the sub region of the image, and use the coarse-grained \u2011 fine-grained hierarchical network structure to generate details To improve the robustness of image semantic information generation method.
【技术实现步骤摘要】
一种基于双重注意力机制层次网络的图像语义生成方法
本专利技术属于图像处理及模式识别领域,尤其涉及一种基于序列化双重注意力机制层次网络的图像语义生成方法。
技术介绍
图像语义自动生成技术作为连接图像与文字的桥梁,对于语义图像搜索及聊天机器人视觉监控系统等场景理解应用领域中具有重要作用。图像语义生成技术的目标在于机器生成的文字能够尽可能地精确表达出图像内容,具有良好的发展和应用前景。图像语义生成技术主要有:模板匹配法、检索法、人工神经网络。模板匹配法通过将预测的名词、动词和语态填充到预定义的句法结构内生成描述语句。早期的模板匹配法仅仅对图像中的内容进行直译,缺少度量图像与描述文字之间的相互关系。Farhadi等提出通过使用中间特征向量计算置信关联度描述图像与文字之间的关系。Kulkarni等提出利用统计学习的方法解析学习大量的文本数据,并且使用计算机视觉中的目标识别算法检测图像中的目标特征,达到生成与图像内容更相关的文字描述。Yang等提出使用隐马尔科夫模型整合图像感知和语义生成过程,但该算法对于错误检测出的目标无法生成准确的文字描述。检索法重复检索使用固定标签图像的描述语句,无法生成新颖的文字描述。Kuznetsova等提出数据驱动模式的启发式方法,同时利用图像特征和语言描述特征生成语义。给定原始图像,该方法利用图像相似度值从语义专家库中检索人类标注语句。Mason等提出非参数密度估计方法从多种语义中检索出最适宜的文字描述。上述两种方法都需要预先定义语义模板,并且不能根据不同的图像内容生 ...
【技术保护点】
1.一种基于双重注意力机制层次网络的图像语义生成方法,其实现包括以下步骤:/n步骤1、原始图像采集及预处理,对采集的原始图像进行尺度归一化,得到大小和分辨率统一的图像,将图像大小设置为224X224像素;/n步骤2、获取粗粒度视觉特征信息:/n1)、使用ResNet-152网络模型从每幅原始图像中提取出的全局图像特征维度向量,并设置固定维度为2048维;/n2)、使用ResNet-152网络模型通过池化层的平均池化操作提取子空间特征映射图集合,平均池化层窗口大小为14X14像素;/n步骤3、获得细粒度视觉特征信息:/n将预处理过的原始图像作为Faster-RCNN网络模型的输入,得到原始图像中的目标特征和属性特征,合并得到细粒度视觉特征信息,目标特征和属性特征的特征向量维度为2048维,所述的目标特征为原始图像中检测目标的边界框,所述属性特征为原始图像中检测目标的类别标签;/n步骤4、使用序列化双重注意力机制网络模型融合不同细粒度的图像特征;/n步骤5、将步骤4的输出结果输入基于LSTM的双层堆栈RNN网络的语义生成模型,生成最终的图像语义描述文本,并且使用LSTM结构单元处理累积的长 ...
【技术特征摘要】
1.一种基于双重注意力机制层次网络的图像语义生成方法,其实现包括以下步骤:
步骤1、原始图像采集及预处理,对采集的原始图像进行尺度归一化,得到大小和分辨率统一的图像,将图像大小设置为224X224像素;
步骤2、获取粗粒度视觉特征信息:
1)、使用ResNet-152网络模型从每幅原始图像中提取出的全局图像特征维度向量,并设置固定维度为2048维;
2)、使用ResNet-152网络模型通过池化层的平均池化操作提取子空间特征映射图集合,平均池化层窗口大小为14X14像素;
步骤3、获得细粒度视觉特征信息:
将预处理过的原始图像作为Faster-RCNN网络模型的输入,得到原始图像中的目标特征和属性特征,合并得到细粒度视觉特征信息,目标特征和属性特征的特征向量维度为2048维,所述的目标特征为原始图像中检测目标的边界框,所述属性特征为原始图像中检测目标的类别标签;
步骤4、使用序列化双重注意力机制网络模型融合不同细粒度的图像特征;
步骤5、将步骤4的输出结果输入基于LSTM的双层堆栈RNN网络的语义生成模型,生成最终的图像语义描述文本,并且使用LSTM结构单元处理累积的长序列信息。
2.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法,其特征在于:边界框中包含检测目标丰富的视觉信息。
3.根据权利要求1所述的基于双重注意力机制层次...
【专利技术属性】
技术研发人员:郭杨,刘康,佐江宏,常青,管志斌,高鑫,关瑞荣,郭素芳,
申请(专利权)人:山西潞安环保能源开发股份有限公司五阳煤矿,中国矿业大学北京,
类型:发明
国别省市:山西;14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。