一种基于自然语言语义的图像目标检测方法技术

技术编号：15640437 阅读：170 留言：0更新日期：2017-06-16 05:55

本发明专利技术公开了一种基于自然语言语义的图像目标检测方法，该方法的输入包括待检测图像以及待检测目标的自然语言短语描述，首先通过卷积神经网络计算待检测图像的全局特征图，然后将全局特征图输入RPN网络计算备选目标集，计算的备选目标集由RoI池化层提取备选目标的区域特征图，最后以图像全局特征图、备选目标区域的局部特征图和位置信息作为上下文结合查询短语的词向量表示作为LSTM模块的输入计算目标区域产生查询短语的条件概率，根据条件概率返回检测结果。本发明专利技术将自然语言处理模块LSTM模型融入到Faster‑RCNN框架中，利用Faster‑RCNN框架共享计算的特点与卷积网络在图像特征提取上的优势提高基于自然语言语义的目标检测效率与精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言语义的图像目标检测方法
本专利技术属于图像分析识别
，特别涉及一种基于自然语言语义的图像目标检测方法。
技术介绍
图像目标识别是计算机视觉领域研究的核心任务之一，近年来随着深度学习在图像领域的成功应用，目标识别的研究也取得了突破性的进展，检测的精度相比传统的方法取得了很大的提高，在某些领域已经被商业化的应用到了人们的生活中，比如阿里巴巴的刷脸支付、智能交通道路目标识别等。但是传统的目标识别方法的识别结果往往是一些事先定义好的某个类别的物体，比如人脸、车等，而一幅图像中包含的内容远远不止一些相互独立的物体，还包含了物体的属性、物体的空间关系、物体的逻辑关系等信息，这些信息不能够只用一些类标签进行描述，而是需要使用自然语言进行描述，这也是更符合人类思维的描述方式。图像目标识别任务包括目标备选集的产生、备选目标的特征抽取、备选目标的分类以及备选目标的位置修正等4个基本子任务，Faster-RCNN模型是传统目标识别方法的典型代表，该方法利用深度卷积神经网络结合RPN网络来解决这4个子任务，其中用于产生目标备选集的RPN网络本质上也是一个深度卷积神经网络，所以整个模型可以以一种端到端的方式进行训练，相比之前的以不同的方法来分别解决这些子任务的目标识别方法，Faster-RCNN在训练的效率以及识别的精度上有了很大的提升，但是Faster-RCNN模型的识别对象仍只是预先定义好类标的物体，并不能结合自然语言进行目标识别。现有的结合自然语言进行目标检测的方法例如SCRC模型(spatialcontextrecurrentconvnet)，大部分利...
一种基于自然语言语义的图像目标检测方法

【技术保护点】
一种基于自然语言语义的图像目标检测方法，其特征在于，包括如下步骤：(1)训练Faster‑RCNN模块的Fast‑RCNN卷积神经网络以及RPN网络部分；(2)利用训练好的Faster‑RCNN模块提取的图像特征训练LSTM模块；(3)输入图像和目标查询短语到模型中进行图像目标检测。

【技术特征摘要】
1.一种基于自然语言语义的图像目标检测方法，其特征在于，包括如下步骤：(1)训练Faster-RCNN模块的Fast-RCNN卷积神经网络以及RPN网络部分；(2)利用训练好的Faster-RCNN模块提取的图像特征训练LSTM模块；(3)输入图像和目标查询短语到模型中进行图像目标检测。2.根据权利要求1所述基于自然语言语义的图像目标检测方法，其特征在于，所述步骤(1)中训练Faster-RCNN模块的具体过程如下：模型训练在ImageNet的目标检测数据集上采用4步交替训练来进行，第一步先训练RPN网络；第二步使用RPN网络作为目标备选集产生模块来训练Fast-RCNN网络；第三步将Fast-RCNN的卷积层网络权值赋予RPN网络的卷积层，然后固定RPN网络的卷积层不变，单独训练RPN网络的分类层和回归层；第三步后RPN网络和Fast-RCNN网络实现了卷积层共享，第四步固定共享卷积层和RPN不变，训练Fast-RCNN其余的网络层。3.根据权利要求2所述基于自然语言语义的图像目标检测方法，其特征在于，所述4步交替训练迭代进行多次，训练过程中使用误差的反向传播算法计算梯度，使用随机梯度下降算法更新网络权值。4.根据权利要求1所述基于自然语言语义的图像目标检测方法，其特征在于，所述步骤(2)中训练LSTM模型的数据集为ReferIt数据集，训练样本是个三元组[I,R,D]，其中I表示输入图像，R表示图像上的目标，D表示对目标的描述，一张图片有任意个目标，每个目标有任意个描述，模型训练的目标是最大化目标区域产生对应自然语言描述的似然函数，表示为损失函数其中，N表示图像数目，Mi表示第i张图像中的目标数目，Dij表示第i个图像的第j个目标的描述短语的个数，Si,j,d表示自然语言描述短语，概率p(Si,j...

【专利技术属性】
技术研发人员：覃征，叶树雄，王国龙，徐凯平，黄凯，李志鹏，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人