The present invention in a visual attention model based on text image description method, its main contents include: data input, preprocessing, adaptive attention model, image subtitle output, the process is, firstly it uses to describe people performing various actions and image data contains multiple objects in complex scenes in the context of the set. Each image matching 5 manual annotation and pretreatment of subtitle subtitles; shorten the length of the data set is input to the encoder in extracting spatial image features; finally, feedback to the trained adaptive spatial visual attention model based on the door sentry, let the machine automatically generate image captions and task execution, get natural language image and the corresponding description result. The present invention in image recognition, compared to the template based method, the optimal performance; it can also help the visually impaired users, and allows a user to easily organize and navigate a typical unstructured visual data.
【技术实现步骤摘要】
一种基于视觉注意模型的图像文字描述方法
本专利技术涉及图像识别领域,尤其是涉及了一种基于视觉注意模型的图像文字描述方法。
技术介绍
随着科技技术迅速发展,在图像识别领域,基于注意的神经编码器-解码器框架已经被广泛地用于图像文字描述,即智能识别图像内容,并自动对它用自然语言进行描述。然而,解码器可能需要图像的很少甚至没有视觉信息以预测非可视词,可能看起来可视化的其他词通常可以从语言模型可靠地预测。而如果采用基于视觉注意模型的图像文字描述方法,则可以解决自动生成的图像字幕质量不高的问题,而且它可以自动决定什么时候依赖视觉信号,什么时候只依靠语言模型。本专利技术提出了一种基于视觉注意模型的图像文字描述方法,首先它采用描述人执行各种动作和在复杂场景的上下文中包含多个对象的图像数据集,每个图像配对5个人工标注的字幕;然后预处理缩短字幕长度,将数据集输入到编码器中提取空间图像特征;最后反馈给训练好的基于“视觉哨兵”门的自适应空间注意模型,让机器执行自动生成图像字幕的任务,得到图像对应的自然语言描述结果。本专利技术在图像识别方面,比起基于模板的方法,其表现性能最优;它还可以帮助视觉受损的用户,并使用户易于组织和导航大量典型非结构化的视觉数据。
技术实现思路
针对自动生成的图像字幕质量不高的问题,本专利技术的目的在于提供一种基于视觉注意模型的图像文字描述方法。为解决上述问题,本专利技术提供一种基于视觉注意模型的图像文字描述方法,其主要内容包括:(一)数据输入;(二)预处理;(三)自适应注意模型;(四)图像字幕输出。其中,一种基于视觉注意模型的图像文字描述方法,包括新的空间注意 ...
【技术保护点】
一种基于视觉注意模型的图像文字描述方法,其特征在于,主要包括数据输入(一);预处理(二);自适应注意模型(三);图像字幕输出(四)。
【技术特征摘要】
1.一种基于视觉注意模型的图像文字描述方法,其特征在于,主要包括数据输入(一);预处理(二);自适应注意模型(三);图像字幕输出(四)。2.基于权利要求书1所述的一种基于视觉注意模型的图像文字描述方法,其特征在于,包括新的空间注意模型,用于提取空间图像特征;自适应注意机制,引入了一个新的长短期存储器(LSTM)扩展,产生一个额外的“视觉哨兵”向量而不是单个隐藏状态;“视觉哨兵”是解码器存储器的附加潜在表示,向解码器提供回退选项;由“视觉哨兵”进一步得到一个新的哨兵门,它决定解码器想要从图像获得多少新信息,而不是依赖于“视觉哨兵”生成下一个词。3.基于权利要求书1所述的数据输入(一),其特征在于,采用了场景对象数据集;场景对象数据集中的大多数图像描绘人执行各种动作,而且是在复杂场景的上下文中包含多个对象,每个图像都有5个人工标注的字幕。4.基于权利要求书1所述的预处理(二),其特征在于,把场景对象数据集长度超过18个字符的字幕截短;然后构建在训练集中出现至少5次和3次的词的词汇表。5.基于权利要求书1所述的自适应注意模型(三),其特征在于,包括编码器,空间注意模型,哨兵门和解码器;它可以自动确定什么时候依赖视觉信号,什么时候只依靠语言模型,并且当依赖于视觉信号时,模型还决定应该注意图像的哪个区域。6.基于权利要求书5所述的编码器,其特征在于,包括使用卷积神经网络来获得图像的表示;使用ResNet的最后卷积层的空间特征输出,其尺寸为2048×7×7;我们使用A={a1,…,ak},表示在k个网格位置中的每一处的空间卷积神经网络特征;通过以下方式获得全局图像特征:其中ag是全局图像特征,为了建模方便,我们使用具有整流器激活函数的单层感知器将图像特征向量转换成具有维度d的新向量:vi=ReLU(Waai)(2)vg=ReLU(Wbag)(3)其中Wa和Wg是权重参数,变换的空间图像特征形式V=[v1,…,vk]。7.基于权利要求书5所述的空间注意模型,其特征在于,包括该空间注意模型用于计算上下文向量Ct,定义为:Ct=g(V,ht)(4)其中g是注意函数,V=[v1,…,vk],是空间图像特征,每个空间图像特征是与图像的一部分相对应的d维表示;ht是递归神经网络在时间t的隐藏状态;给定LSTM的空间图像特征和隐藏状态我们通过单层神经网络,使用softmax函数来反馈它们,以产生图像的k个区域上的注意分布:αt=softmax(zt)(6)其中是所有元素都设置为1的向量;Wv,和是要学习的参数;是V中特...
【专利技术属性】
技术研发人员:夏春秋,
申请(专利权)人:深圳市唯特视科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。