当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于自然语言语义的图像目标检测方法技术

技术编号:15640437 阅读:170 留言:0更新日期:2017-06-16 05:55
本发明专利技术公开了一种基于自然语言语义的图像目标检测方法,该方法的输入包括待检测图像以及待检测目标的自然语言短语描述,首先通过卷积神经网络计算待检测图像的全局特征图,然后将全局特征图输入RPN网络计算备选目标集,计算的备选目标集由RoI池化层提取备选目标的区域特征图,最后以图像全局特征图、备选目标区域的局部特征图和位置信息作为上下文结合查询短语的词向量表示作为LSTM模块的输入计算目标区域产生查询短语的条件概率,根据条件概率返回检测结果。本发明专利技术将自然语言处理模块LSTM模型融入到Faster‑RCNN框架中,利用Faster‑RCNN框架共享计算的特点与卷积网络在图像特征提取上的优势提高基于自然语言语义的目标检测效率与精度。

【技术实现步骤摘要】
一种基于自然语言语义的图像目标检测方法
本专利技术属于图像分析识别
,特别涉及一种基于自然语言语义的图像目标检测方法。
技术介绍
图像目标识别是计算机视觉领域研究的核心任务之一,近年来随着深度学习在图像领域的成功应用,目标识别的研究也取得了突破性的进展,检测的精度相比传统的方法取得了很大的提高,在某些领域已经被商业化的应用到了人们的生活中,比如阿里巴巴的刷脸支付、智能交通道路目标识别等。但是传统的目标识别方法的识别结果往往是一些事先定义好的某个类别的物体,比如人脸、车等,而一幅图像中包含的内容远远不止一些相互独立的物体,还包含了物体的属性、物体的空间关系、物体的逻辑关系等信息,这些信息不能够只用一些类标签进行描述,而是需要使用自然语言进行描述,这也是更符合人类思维的描述方式。图像目标识别任务包括目标备选集的产生、备选目标的特征抽取、备选目标的分类以及备选目标的位置修正等4个基本子任务,Faster-RCNN模型是传统目标识别方法的典型代表,该方法利用深度卷积神经网络结合RPN网络来解决这4个子任务,其中用于产生目标备选集的RPN网络本质上也是一个深度卷积神经网络,所以整个模型可以以一种端到端的方式进行训练,相比之前的以不同的方法来分别解决这些子任务的目标识别方法,Faster-RCNN在训练的效率以及识别的精度上有了很大的提升,但是Faster-RCNN模型的识别对象仍只是预先定义好类标的物体,并不能结合自然语言进行目标识别。现有的结合自然语言进行目标检测的方法例如SCRC模型(spatialcontextrecurrentconvnet),大部分利用了非深度学习的方法来产生目标备选集,例如选择性搜索等,然后再用卷积神经网络和长短期记忆模型(LSTM)分别提取图像和自然语言的特征进行目标检测,整个框架不支持端到端的训练,检测的效率与精度有待提高。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于自然语言语义的图像目标检测方法,将Faster-RCNN模型中的分类器模块替换为处理自然语言信息的LSTM模块,同时利用Faster-RCNN模型中的RPN网络来产生目标备选集,通过结合目标的自然语言描述进行图像目标检测,实现了一种支持端到端计算的网络结构,提高了目标检测的效率与精度。为了实现上述目的,本专利技术采用的技术方案是:一种基于自然语言语义的图像目标检测方法,包括以下基本步骤:(1)在ImageNet数据集上,训练Faster-RCNN模块的Fast-RCNN卷积神经网络以及RPN网络部分;(2)利用训练好的Faster-RCNN模块提取的图像特征训练LSTM模块;(3)输入图像和目标查询短语到模型中进行图像目标检测。即,对于训练好的模型,给定一个图像以及要查询的目标的自然语言短语描述,从图像中即可检测出相应目标。上述步骤1的具体过程为:Faster-RCNN网络由RPN网络和Fast-RCNN网络通过共享卷积层组成,采用4步交替训练来训练模型,第一步先训练RPN网络。第二步使用RPN网络作为目标备选集产生模块来训练Fast-RCNN网络。第三步将Fast-RCNN的卷积层网络权值赋予RPN网络的卷积层,然后固定RPN网络的卷积层不变,单独训练RPN网络的分类层和回归层。第三步后RPN网络和Fast-RCNN网络实现了卷积层共享,第四步固定共享卷积层和RPN不变,训练Fast-RCNN其余的网络层。这四步的交替训练可以迭代进行多次,训练过程中使用误差的反向传播算法计算梯度,使用随机梯度下降算法更新网络权值。上述步骤2的具体过程为:训练LSTM模型的数据集为ReferIt数据集,训练样本是个三元组[I,R,D],其中I表示输入图像,R表示图像上的目标,D表示对目标的描述,一张图片可以有多个目标,每个目标可以有多个描述,模型训练的目标是最大化目标区域产生对应自然语言描述的似然函数,表示为损失函数其中N表示图片数目,其中,N表示图像数目,Mi表示第i张图像中的目标数目,Dij表示第i个图像的第j个目标的描述短语的个数,Si,j,d表示自然语言描述短语,概率p(Si,j,d|context)就表示了图像中的目标区域产生对应自然语言描述的条件概率。LSTM模型参数可以使用在大型语料库上训练好的LSTM语言模型的参数来初始化,然后在ReferIt数据集上使用误差的反向传播与随机梯度下降算法来调整模型的参数直至达到收敛条件。上述步骤3的具体过程为:首先将图像输入共享卷积神经网络提取图像的特征图,该卷积神经网络主要由若干的卷积层和池化层构成,每个卷积层都用一个卷积核对上一层得到的特征图做卷积操作,然后将卷积得到的结果用激活函数做非线性变化,这里的激活函数主要使用增强线性单元Relu,其函数形式为f(x)=max(0,x),将卷积层的计算结果通过池化层的下采样操作后就可以得到下一层的特征图。卷积神经网络计算的特征图作为RPN网络的输入,由RPN网络计算目标备选集,其中每个备选目标是一个矩形区域表明可能是物体的目标区域,一个目标区域由4个数值[x,y,w,h]确定,其中x和y表示矩形区域的左上角坐标,w和h表示区域的宽和高。目标备选集结合图像的特征图经过ROI(Regionofinterest)池化层可以直接得到备选目标区域的特征。最后,LSTM模块将图像的全局特征、备选区域的局部特征以及备选区域的位置信息作为上下文,计算该备选区域产生目标查询短语描述的条件概率条件概率最大备选目标区域就是图像目标识别的结果。与现有技术相比,本专利技术的有益效果是:1、使用RPN网络来产生目标备选集,通过共享卷积神经网络使得产生目标备选集的计算代价基本为零。2、在计算条件概率时引入目标位置以及图像全局特征等上下文信息,可以提高识别的精度。3、通过将LSTM模型结合到Faster-RCNN框架中,使得整个检测过程可以端到端的计算完成,进一步提高检测效率。附图说明图1为本专利技术的基于自然语言语义的图像目标检测方法流程图。具体实施方式为了更具体地叙述本专利技术,下面结合附图和具体实施方式对本专利技术的技术方案进行详细说明。本专利技术如图1所示,包括如下步骤:1.在ImageNet数据集上训练Faster-RCNN模块的共享卷积神经网络和RPN网络部分。2.使用ReferIt数据集中给出的带目标自然语义标注的图像数据训练LSTM模型。3.对于训练好的模型,给定一个图像以及要查询的目标的自然语言短语描述,从图像中检测出相应目标。具体地,对于输入的图像,首先利用共享卷积神经网络提取图像的特征图,卷积神经网络由一系列的卷积、激活函数激活以及池化操作构成,其中卷积操作可以表示为其中I表示图像的像素值,W表示卷积核权值,进行卷积后使用激活函数进行非线性变换,常见的激活函数包括增强线性单元f(x)=max(0,x)、双曲正切函数等,池化操作主要进行信息的下采样,可以通过取最大值或者取平均值的方式进行。为了增加模型的泛化能力,对部分卷积层的计算结果进行LRN操作(localresponsenormalization),LRN操作可以表示为其中表示第i个卷积核在图像(x,y)位置的经过激活的卷积计算结果,整个式子相当于对每个卷积核的计算结果用其相邻的本文档来自技高网
...
一种基于自然语言语义的图像目标检测方法

【技术保护点】
一种基于自然语言语义的图像目标检测方法,其特征在于,包括如下步骤:(1)训练Faster‑RCNN模块的Fast‑RCNN卷积神经网络以及RPN网络部分;(2)利用训练好的Faster‑RCNN模块提取的图像特征训练LSTM模块;(3)输入图像和目标查询短语到模型中进行图像目标检测。

【技术特征摘要】
1.一种基于自然语言语义的图像目标检测方法,其特征在于,包括如下步骤:(1)训练Faster-RCNN模块的Fast-RCNN卷积神经网络以及RPN网络部分;(2)利用训练好的Faster-RCNN模块提取的图像特征训练LSTM模块;(3)输入图像和目标查询短语到模型中进行图像目标检测。2.根据权利要求1所述基于自然语言语义的图像目标检测方法,其特征在于,所述步骤(1)中训练Faster-RCNN模块的具体过程如下:模型训练在ImageNet的目标检测数据集上采用4步交替训练来进行,第一步先训练RPN网络;第二步使用RPN网络作为目标备选集产生模块来训练Fast-RCNN网络;第三步将Fast-RCNN的卷积层网络权值赋予RPN网络的卷积层,然后固定RPN网络的卷积层不变,单独训练RPN网络的分类层和回归层;第三步后RPN网络和Fast-RCNN网络实现了卷积层共享,第四步固定共享卷积层和RPN不变,训练Fast-RCNN其余的网络层。3.根据权利要求2所述基于自然语言语义的图像目标检测方法,其特征在于,所述4步交替训练迭代进行多次,训练过程中使用误差的反向传播算法计算梯度,使用随机梯度下降算法更新网络权值。4.根据权利要求1所述基于自然语言语义的图像目标检测方法,其特征在于,所述步骤(2)中训练LSTM模型的数据集为ReferIt数据集,训练样本是个三元组[I,R,D],其中I表示输入图像,R表示图像上的目标,D表示对目标的描述,一张图片有任意个目标,每个目标有任意个描述,模型训练的目标是最大化目标区域产生对应自然语言描述的似然函数,表示为损失函数其中,N表示图像数目,Mi表示第i张图像中的目标数目,Dij表示第i个图像的第j个目标的描述短语的个数,Si,j,d表示自然语言描述短语,概率p(Si,j...

【专利技术属性】
技术研发人员:覃征叶树雄王国龙徐凯平黄凯李志鹏
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1