图片语义描述方法及装置制造方法及图纸

技术编号：17098034 阅读：28 留言：0更新日期：2018-01-21 10:09

本发明专利技术实施例提供一种图片语义描述方法及装置，属于图像处理领域。所述方法包括：将原始图片输入卷积神经网络，获取所述原始图片的卷积特征图谱；将所述卷积特征图谱输入进区域建议网络，获取多个建议区域及其各自对应的区域特征；将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络，通过视觉注意机制获取当前时刻的目标区域；基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语，以通过所述词语生成用于对所述原始图片进行语义描述的句子。通过本方法可有效提高对图片语义描述的准确性。

Image semantic description method and device

The embodiment of the invention provides a picture semantic description method and device, which belongs to the field of image processing. The method includes: the original picture input convolutional neural network, convolution fingerprint to obtain the original image; the convolution fingerprint input into the regional network, obtain the regional characteristics and corresponding suggestions of multiple regions; the plurality of suggestions on regional characteristics corresponding to the input to the region long term memory network, get the target area at the moment through the visual attention mechanism; regional features and language of the target region are generated on a state generation model based on time words, by the words used to generate semantic description of the original picture of the sentence. This method can effectively improve the accuracy of the picture semantic description.

全部详细技术资料下载

【技术实现步骤摘要】
图片语义描述方法及装置
本专利技术涉及图像处理领域，具体而言，涉及一种图片语义描述方法及装置。
技术介绍
随着社交网络的蓬勃发展，社交媒体上海量的图片数据已经成为一个巨大的社会情况研究资源。这些数据对于图片检索，数据挖掘研究有着显著的帮助，同时还可以帮助研究社会热点事件以及社会学和人类学，如何获取图片上的有效信息成为了一个值得关注的问题。伴随深度学习网络的发展，现有技术中主要针对端到端的图片语义获取。这可以从卷积神经网络到循环神经网络方法(CNN-RNN)的发展说起，卷积神经网络可以获取图像的计算机视觉数据(人类并不能直接理解)，再把视觉数据传到循环神经网络则可以产生人类语言。但是把图像整体一次性编码到卷积网络中会限制信息获取的能力，因为在这个过程中一些特定的目标会被忽视，导致计算机不能够理解到图像的一些细节。人类视觉注意机制是认知过程中的重要一环。相比于只注视图像的全局信息，人类的视觉可以自动的关注到图像的重要部分，而忽视掉一些无关紧要的部分。利用这个机制，一些研究人员在CNN-RNN方法下提高了语义句子的质量，采用的方法是将图片划分为固定的格子，学习网络利用格子里面的信息去获取不同语义，但是这种方法导致学习网络很难准确识别不同位置不同大小的各种语义对象，从而无法对图片进行准确的语义描述。
技术实现思路
有鉴于此，本专利技术实施例的目的在于提供一种图片语义描述方法及装置，以改善上述问题。第一方面，本专利技术实施例提供了一种图片语义描述方法，所述方法包括：将原始图片输入卷积神经网络，获取所述原始图片的卷积特征图谱；将所述卷积特征图谱输入进区域建议网络，获取多个...
图片语义描述方法及装置

【技术保护点】
一种图片语义描述方法，其特征在于，所述方法包括：将原始图片输入卷积神经网络，获取所述原始图片的卷积特征图谱；将所述卷积特征图谱输入进区域建议网络，获取多个建议区域及其各自对应的区域特征；将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络，通过视觉注意机制获取当前时刻的目标区域；基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语，以通过所述词语生成用于对所述原始图片进行语义描述的句子。

【技术特征摘要】
1.一种图片语义描述方法，其特征在于，所述方法包括：将原始图片输入卷积神经网络，获取所述原始图片的卷积特征图谱；将所述卷积特征图谱输入进区域建议网络，获取多个建议区域及其各自对应的区域特征；将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络，通过视觉注意机制获取当前时刻的目标区域；基于所述目标区域的区域特征和语言产生模型上一时刻的状态生成词语，以通过所述词语生成用于对所述原始图片进行语义描述的句子。2.根据权利要求1所述的方法，其特征在于，将所述卷积特征图谱输入进区域建议网络，获取多个建议区域及其各自对应的区域特征，包括：将所述卷积特征图谱输入进区域建议网络，获取多个建议区域的各自对应特征参数，其中，每个建议区域的特征参数包括区域建议框、区域得分及区域特征。3.根据权利要求2所述的方法，其特征在于，将获取的所述多个建议区域分别对应的区域特征输入到长短期记忆网络，通过视觉注意机制获取当前时刻的目标区域，包括：基于获取的所述多个建议区域分布对应的区域特征获取对应的权重；基于所述权重获取所述目标区域。4.根据权利要求3所述的方法，其特征在于，基于获取的所述多个建议区域分布对应的区域特征获取对应的权重，包括：将所述区域特征带入eti＝fatt(Ri,ht-1)，获取所述权重，其中，ati为所述权重，Ri为每个建议区域对应的区域特征，ht-1为语言产生模型的前一时间点的隐含状态。5.根据权利要求1所述的方法，其特征在于，所述原始图片大小为3×W×H，将原始图片输入卷积神经网络，获取所述原始图片的卷积特征图谱，包括：将大小为3×W×H的所述原始图片输入卷积神经网络；对所述原始图片进...

【专利技术属性】
技术研发人员：杨阳，张明星，姬艳丽，谢宁，申恒涛，
申请(专利权)人：成都澳海川科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人