基于视觉显著性与语义属性跨模态图像自然语言描述方法技术

技术编号:17265725 阅读:138 留言:0更新日期:2018-02-14 13:21
本发明专利技术属于计算机视觉与自然语言处理技术领域,公开了一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对视觉显著性图像进行语义属性检测;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。本发明专利技术具有准确度高的优点。可用于复杂场景下的图像检索及多目标图像语义理解等。

A natural language description method for cross modal images based on visual significance and semantic properties

The invention belongs to the field of computer vision and Natural Language Processing technology, discloses a visual saliency and cross modal semantic attribute description method of image based on natural language, to extract multi-scale depth visual features of image regions by convolution neural network; using significant pre training model, the original image was weighted image saliency map regression; a predefined dictionary as the semantic attribute categories, and semantic attribute detection of visual saliency image; using multiple instance learning computing semantic attribute; image feature weighting using the semantic attribute; the long short term memory to decode the semantic attributes of network based on visual saliency, image description. The invention has the advantages of high accuracy. It can be used for image retrieval in complex scenes and semantic understanding of multi-target images.

【技术实现步骤摘要】
基于视觉显著性与语义属性跨模态图像自然语言描述方法
本专利技术属于计算机视觉与自然语言处理
,尤其涉及一种基于视觉显著性与语义属性跨模态图像自然语言描述方法。
技术介绍
图像自动描述系统能够基于图像中物体与环境之间的交互关系,自动生成准确、流利、接近于人的自然语言描述,从而对视觉场景中的内容进行语义理解。该系统将图像视觉特征与语义信息统一起来,使得图像语义信息更为客观的反映其视觉内容,利用语义信息进行高层推理、大规模图像组织和实现最终的图像理解。与计算机视觉领域中其他热门方向如图像检索,图像分割等领域相比,图像自动描述的本质问题是由视觉到语言,涉及到两种模态(即图像和文本)之间的“翻译”过程。当前的研究结果表明,受到目标种类数目及场景复杂度的限制,基于单一图像全局特征的自动生成结果准确度仍有待提升。因此,如何引入丰富的视觉信息和语义信息进而获得对图像更加全面理解概括,是提升图像描述系统准确度的关键问题之一。目前图像描述方法主要分为以下两类:第一类是自下而上的图像描述,将图像描述分解为若干个独立的子问题,并依次解决。美国StonyBrook大学的Kulkarni等利用条件随机场选本文档来自技高网...
基于视觉显著性与语义属性跨模态图像自然语言描述方法

【技术保护点】
一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,其特征在于,所述基于视觉显著性与语义属性跨模态图像自然语言描述方法包括:采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对检测视觉显著性图像进行语义属性;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。

【技术特征摘要】
1.一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,其特征在于,所述基于视觉显著性与语义属性跨模态图像自然语言描述方法包括:采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对检测视觉显著性图像进行语义属性;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。2.如权利要求1所述的基于视觉显著性与语义属性跨模态图像自然语言描述方法,其特征在于,所述基于视觉显著性与语义属性跨模态图像自然语言描述方法包括以下步骤:(1)对图像进行子区域划分并用CNN对图像进行多尺度深度视觉特征提取;(2)将CNN提取的多尺度特征向量输入到预训练好的显著性模型中,回归出图像各子区域的显著性分数,并用全局显著性图对原图像进行加权;(3)建立预定义字典作为语义属性类别,并对视觉显著性图像的各子区域进行语义属性检测;采用基于视觉显著性的语义特征对初始化网络;(4)采用多示例学习计算语义属性;(5)利用语义属性对图像特征加权;(6)采用LSTM网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。3.如权利要求2所述的基于视觉显著性与语义属性跨模态图像自然语言描述方法,其特征在于,所述(5)是根据生成属性选择与之相连的权重,在对应的特征维度上累加作为对属性预测的重要性参数,再将每个子区域上各个位置的图像特征取均值得到单一特征,并通过重要性参数对其在对应维度上加权,以此表示输入图像的语义属性特征。4.如权利要求2所述的基于视觉显著性与语义属性跨模态图像自然语言描述方法,其特征在于,所述步骤(2)具体包括:(a)预训练模型:显著性回归模型是由两个全连接层和一个输出层组成的神经网络,图像的一个子区域内70%以上的像素点具有相同的显著性标签,则将该子区域选为训练样本并将它的显著性分数整体置为1,否则为0;(b)将图像的全部子区域输入...

【专利技术属性】
技术研发人员:田春娜王蔚高新波李明郎君王秀美张相南刘恒袁瑾
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1