【技术实现步骤摘要】
一种基于视觉增强gLSTM的图像描述生成方法
本专利技术主要涉及图像理解领域,具体涉及一种基于视觉增强gLSTM的图像描述生成方法。
技术介绍
图像描述是计算机视觉的重要研究内容之一,也是当前的热点之一。其过程就是对给定图像生成语句来描述图像的内容。图像描述的过程借鉴了机器翻译,通过卷积神经网络和循环神经网络的结合构建编码-解码的框架,提取图像的卷积特征并用于生成图像的描述语句。
技术实现思路
本专利技术的目的在于提出一种基于视觉增强gLSTM的图像描述生成方法,通过卷积神经网络提取图像特征,结合文本特征训练循环神经网络来生成图像描述语句。本专利技术的技术方案如下:(1)检测图像关键点:先对图像做不同程度的高斯平滑,再对这些图像做差分构成高斯金字塔提取图像关键点;(2)过滤图像关键点,保留密集点区域:对每一个初始关键点统计其在预定义3×3像素滑窗内周围的关键点数量,并与阈值比较判断是否保留该关键点;(3)扩展关键点,获取兴趣区域:以关键点为中心,扩展为7×7像素的黑色矩形框,然后从图像的中间列向两侧统计相邻两列的扩展区域像素点的像素差,并根据阈值确定兴趣区域;(4)提 ...
【技术保护点】
1.一种基于视觉增强gLSTM的图像描述生成方法,其特征包括以下步骤:(1)通过高斯差分检测算子检测图像关键点;(2)过滤图像关键点,保留密集点区域;(3)扩展关键点为7×7像素的矩形框,并分割为兴趣区域;(4)将图像兴趣区域输入卷积神经网络提取特征;(5)图像特征和文本词袋模型特征进行典型相关分析计算,得到图像映射特征;(6)将图像的映射特征作为gLSTM的引导信息生成描述语句。
【技术特征摘要】
1.一种基于视觉增强gLSTM的图像描述生成方法,其特征包括以下步骤:(1)通过高斯差分检测算子检测图像关键点;(2)过滤图像关键点,保留密集点区域;(3)扩展关键点为7×7像素的矩形框,并分割为兴趣区域;(4)将图像兴趣区域输入卷积神经网络提取特征;(5)图像特征和文本词袋模型特征进行典型相关分析计算,得到图像映射特征;(6)将图像的映射特征作为gLSTM的引导信息生成描述语句。2.根据权利要求1所述的方法,其特征在于步骤(1)中,使用高斯差分检测算子检测图像关键点。3.根据权利要求1所述的方法,其特征在于步骤(2)中过滤图像关键点,其具体步骤如下:(31)统计每一个初始关键点在预定义3×3像素滑窗内周围的关键点数量;(32)针对每个图像统计初始关键点阈值:图像初始关键点数量小于等于70时,定义阈值为1;图像初始关键点数量大于70且小于等于450时,定义阈值为3;图像初始关键点数量大于450且小于等于950时,定义阈值为4;图像初始关键点数量大于950时,定义阈值为5;(33)每一个初始关键点周围的关键点数量大于等于阈值判断为1,表示保留该点;否则判...
【专利技术属性】
技术研发人员:张静,王振坤,赵贤文,王喆,李冬冬,
申请(专利权)人:华东理工大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。