图片语义描述方法及装置制造方法及图纸

技术编号:17098034 阅读:28 留言:0更新日期:2018-01-21 10:09
本发明专利技术实施例提供一种图片语义描述方法及装置,属于图像处理领域。所述方法包括:将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱;将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征;将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域;基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语,以通过所述词语生成用于对所述原始图片进行语义描述的句子。通过本方法可有效提高对图片语义描述的准确性。

Image semantic description method and device

The embodiment of the invention provides a picture semantic description method and device, which belongs to the field of image processing. The method includes: the original picture input convolutional neural network, convolution fingerprint to obtain the original image; the convolution fingerprint input into the regional network, obtain the regional characteristics and corresponding suggestions of multiple regions; the plurality of suggestions on regional characteristics corresponding to the input to the region long term memory network, get the target area at the moment through the visual attention mechanism; regional features and language of the target region are generated on a state generation model based on time words, by the words used to generate semantic description of the original picture of the sentence. This method can effectively improve the accuracy of the picture semantic description.

【技术实现步骤摘要】
图片语义描述方法及装置
本专利技术涉及图像处理领域,具体而言,涉及一种图片语义描述方法及装置。
技术介绍
随着社交网络的蓬勃发展,社交媒体上海量的图片数据已经成为一个巨大的社会情况研究资源。这些数据对于图片检索,数据挖掘研究有着显著的帮助,同时还可以帮助研究社会热点事件以及社会学和人类学,如何获取图片上的有效信息成为了一个值得关注的问题。伴随深度学习网络的发展,现有技术中主要针对端到端的图片语义获取。这可以从卷积神经网络到循环神经网络方法(CNN-RNN)的发展说起,卷积神经网络可以获取图像的计算机视觉数据(人类并不能直接理解),再把视觉数据传到循环神经网络则可以产生人类语言。但是把图像整体一次性编码到卷积网络中会限制信息获取的能力,因为在这个过程中一些特定的目标会被忽视,导致计算机不能够理解到图像的一些细节。人类视觉注意机制是认知过程中的重要一环。相比于只注视图像的全局信息,人类的视觉可以自动的关注到图像的重要部分,而忽视掉一些无关紧要的部分。利用这个机制,一些研究人员在CNN-RNN方法下提高了语义句子的质量,采用的方法是将图片划分为固定的格子,学习网络利用格子里面的信息去获取不同语义,但是这种方法导致学习网络很难准确识别不同位置不同大小的各种语义对象,从而无法对图片进行准确的语义描述。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种图片语义描述方法及装置,以改善上述问题。第一方面,本专利技术实施例提供了一种图片语义描述方法,所述方法包括:将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱;将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征;将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域;基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语,以通过所述词语生成用于对所述原始图片进行语义描述的句子。进一步地,将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征,包括:将所述卷积特征图谱输入进区域建议网络,获取多个建议区域的各自对应特征参数,其中,每个建议区域的特征参数包括区域建议框、区域得分及区域特征。进一步地,将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域,包括:基于获取的所述多个建议区域分布对应的区域特征获取对应的权重;基于所述权重获取所述目标区域。进一步地,基于获取的所述多个建议区域分布对应的区域特征获取对应的权重,包括:将所述区域特征带入eti=fatt(Ri,ht-1),获取所述权重,其中,ati为所述权重,Ri为每个建议区域对应的区域特征,ht-1为语言产生模型的前一时间点的隐含状态。进一步地,所述原始图片大小为3×W×H,将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱,包括:将大小为3×W×H的所述原始图片输入卷积神经网络;对所述原始图片进行图像编码为大小的卷积特征图谱。第二方面,本专利技术实施例提供了一种图片语义描述装置,所述装置包括:特征图谱获取模块,用于将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱;建议区域特征获取模块,用于将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征;目标区域获取模块,用于将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域;句子生成模块,用于基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语,以通过所述词语生成用于对所述原始图片进行语义描述的句子。进一步地,所述建议区域特征获取模块,具体用于将所述卷积特征图谱输入进区域建议网络,获取多个建议区域的各自对应特征参数,其中,每个建议区域的特征参数包括区域建议框、区域得分及区域特征。进一步地,所述目标区域获取模块包括:权重获取单元,用于基于获取的所述多个建议区域分布对应的区域特征获取对应的权重;目标区域获取单元,用于基于所述权重获取所述目标区域。进一步地,所述权重获取单元,具体用于将所述区域特征带入eti=fatt(Ri,ht-1),获取所述权重,其中,ati为所述权重,Ri为每个建议区域对应的区域特征,ht-1为语言产生模型的前一时间点的隐含状态。进一步地,所述原始图片大小为3×W×H,所述特征图谱获取模块包括:输入单元,用于将大小为3×W×H的所述原始图片输入卷积神经网络;编码单元,用于对所述原始图片进行图像编码为大小的卷积特征图谱。本专利技术实施例的有益效果是:本专利技术实施例提供一种图片语义描述方法及装置,首先通过将图片输入卷积神经网络,获取所述原始图片的卷积特征图谱,再将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征,然后将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域,基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语,以通过所述词语生成用于对所述原始图片进行语义描述的句子,从而通过本方法可有效提高对图片语义描述的准确性。本专利技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术实施例了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了一种可应用于本申请实施例中的电子设备的结构框图;图2为本专利技术实施例提供的一种图片语义描述方法的流程图;图3为本专利技术实施例提供的一种图片语义描述方法中步骤S130的流程图;图4为本专利技术实施例提供的一种图片语义描述装置200的结构框图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。请参照图1,图1示出了一种可应用于本申请实施例中的电子设备100的结构框图。电子设备100可以包括图片语义描述装置、存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、音频单元106、显示单元107。所述存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、音频单本文档来自技高网...
图片语义描述方法及装置

【技术保护点】
一种图片语义描述方法,其特征在于,所述方法包括:将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱;将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征;将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域;基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语,以通过所述词语生成用于对所述原始图片进行语义描述的句子。

【技术特征摘要】
1.一种图片语义描述方法,其特征在于,所述方法包括:将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱;将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征;将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域;基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语,以通过所述词语生成用于对所述原始图片进行语义描述的句子。2.根据权利要求1所述的方法,其特征在于,将所述卷积特征图谱输入进区域建议网络,获取多个建议区域及其各自对应的区域特征,包括:将所述卷积特征图谱输入进区域建议网络,获取多个建议区域的各自对应特征参数,其中,每个建议区域的特征参数包括区域建议框、区域得分及区域特征。3.根据权利要求2所述的方法,其特征在于,将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络,通过视觉注意机制获取当前时刻的目标区域,包括:基于获取的所述多个建议区域分布对应的区域特征获取对应的权重;基于所述权重获取所述目标区域。4.根据权利要求3所述的方法,其特征在于,基于获取的所述多个建议区域分布对应的区域特征获取对应的权重,包括:将所述区域特征带入eti=fatt(Ri,ht-1),获取所述权重,其中,ati为所述权重,Ri为每个建议区域对应的区域特征,ht-1为语言产生模型的前一时间点的隐含状态。5.根据权利要求1所述的方法,其特征在于,所述原始图片大小为3×W×H,将原始图片输入卷积神经网络,获取所述原始图片的卷积特征图谱,包括:将大小为3×W×H的所述原始图片输入卷积神经网络;对所述原始图片进...

【专利技术属性】
技术研发人员:杨阳张明星姬艳丽谢宁申恒涛
申请(专利权)人:成都澳海川科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1