当前位置: 首页 > 专利查询>厦门大学专利>正文

基于卷积神经网络的快速目标检测方法技术

技术编号:11404629 阅读:145 留言:0更新日期:2015-05-03 20:39
基于卷积神经网络的快速目标检测方法,涉及计算机视觉技术。首先利用训练集训练出卷积神经网络参数,然后利用扩展图的方式解决最大池化丢失特征的问题并生成判别完备特征图;把卷积神经网络的全连接权重看成线性分类器,采用可能近似学习框架来估计线性分类器在判别完备特征上的泛华误差;根据泛华误差和所期望泛化误差阈值来估算所需线性分类器个数,最后在判别完备特征图上用线性分类器基于平滑窗的方式完成目标检测。显著提高检测效率和目标检测精度。

【技术实现步骤摘要】
基于卷积神经网络的快速目标检测方法
本专利技术涉及计算机视觉技术,具体是涉及一种基于卷积神经网络的快速目标检测方法。
技术介绍
人类感知世界的一个重要来源就是通过图像信息,研究表明,人类获取外界信息中大约有80%~90%的信息来自于人类眼睛获取的图像信息。人类对外界图像信息感知能力很高,可以快速定位目标和分析目标。计算机要具有强大的视觉感知和理解能力,就应该具备类似人类强大的目标检测和识别能力。目标检测是视觉感知和目标理解的一个很重要的前提工作,目标获取的效率和精度决定着视觉感知的速度和效果。一旦计算机具备类似人类强大的目标检测盒感知能力,就可以更好的在各行业替代人力工作,大大节约生产成本。另外它对日常智能服务行业也提供了强大的支撑。因此,对计算机视觉中的目标检测技术进行深入研究,不断提高检测的准确率,具有重要的现实意义。目前学术界中解决这两个问题的发展趋势是从使用启发式方法到使用机器学习的方法。所用特征也从手工特征转向基于任务自适应提取的特征。目标检测和识别的模型也开始出现从单一特定目标检测和识别到多目标检测和识别同时进行的功能转变。最典型的例子就是深度学习模的出现,解决了传统目标检测和识别的模型只针对有限任务的目标检测和识别任务有效的问题。比如,在2001年,Viola-Jone提出的正面人脸检测框架基于Harr特征对人脸检测相当有效,但是对于侧脸人脸以及行人检测效果不是太好。直到2005年,Dalal等人提出HOG特征并且使用SVM对每个平滑窗对应的HOG(HistogramofGradient)特征进行分类的策略后,垂直行人检测效果才有了一个质的突破。然而,HOG这一手工特征,对于图像分类和识别以及任意姿态的行人、动物、植物等目标的检测效果并不令人满意。接着形变模型(DeformablePartModels:DPM)应运而生解决有形变的目标检测问题。形变模型虽然试着解决因形变导致目标检测不到的问题,但是其模型中需要的形变部件现实中很难理想的捕获到,原因就没有一个好的模型和好的特征来识别部件,因此它在多类目标检测数据集(PASCALVOC,ImageNet)上效果并不是太好。最近的一个突破性工作是深度学习模型的出现。在最大的图像分类和目标检测数据集ImageNet上,基于深度学习模型之一卷积神经网络(CNN)做的目标检测和识别精度的提高更是超过以往最高精度一倍之多。最近两年ImageNet数据集分类和检测性能出众的算法几乎全部采用卷积神经网络,不同的它们的网络结构不同。目前ImageNet数据集上图像分类和目标检测最高的精度分别为95%和55%。尽管基于卷积神经网络的方法在目标检测和识别上提高了很高的精度,但是由于卷积神经网络网络复杂且计算量大,应用在目标检测上效率并不是很高,目前很多方法都是基于GPU来对目标检测程序进行加速。给定一张目标图像,使用平滑窗策略做目标检测,即使采用GPU加速,其算法复杂度仍然很大,效率极低。为了解决卷积神经网络在目标检测上的效率问题,目前学术界主流的解决方案可以分为三类。第一类是基于图割的方法,先对给定图像进行图像分割,通过分割块得到一些潜在的目标区域。然后用卷积神经网络对这些目标区域进行特征提取和分类,最终得到目标的位置。这种方法的缺点就是很依赖于图像分割的好坏。第二类是通过卷积神经网络对原始图像提取特征,然后在特征图上用平滑窗策略做目标位置的回归和目标的分类。这种方法在利用卷积神经网络对大图提取特征时,会丢失一些对分类和回归有用的特征信息,因此最后的模型的性能无法达到最优。第三类方法则是用卷积神经网络分类的优势来寻找部件,进而构建形变模型,采用形变模型的思想对目标做检测。但是这种把卷积神经网络的分类和形变模型中的目标检测分开执行的做法,使得整体框架的检测效果不是很出众,另外这种模型的效率也不是很高。
技术实现思路
本专利技术的目的在于提出一种基于卷积神经网络的快速目标检测方法。本专利技术包括以下步骤:A)准备训练样本集(xi,yi),i=1,……,N,N为训练样本数,N为自然数,xi表示训练样本对应的固定大小的图像,包含目标且目标充满画幅的图像是正样本,其他图像是负样本;yi表示样本类别向量:B)将所有训练样本分m批,将m-2批样本放进设计的卷积神经网络里用反向传播算法训练,2批样本用于测试,所述卷积神经网络包含卷积层、最大池化(max-pooling)层和局部对比归一化(localcontrastnormalization)层三个成分,这三个成分扮演非线性函数的功能,目的是把位于流形上的原始图像映射到欧式空间,卷积的激活函数采用非线性校正单元(Rectifierlinearunit),可以使得卷积后的特征比较稀疏,设计好包含这三个成分的网络结构模型后,用反向传播算法训练对模型进行训练,得到参数W;C)提取步骤B)中的训练好的参数W,采用扩展图的方式解决卷积神经网络中最大池化(max-pooling)丢失信息的问题,给定测试图像,常规最大池化(max-pooling)(也就是使用偏移A作为起始点的方式)操作后只能得到扩展图(A),其他有利于分类的信息会丢失,因此针对2×2的卷积核中每个偏移,都保存一个对应的特征图,称为扩展图;对于每一层max-pooling核大小为K,整个卷积神经网络有p层,扩展之后每个最大池化(max-pooling)的下采样层特征图数目扩展至2K倍,整个网络扩展到o=(2K)p倍,然后把参数W用于任意大小的待检测图像,获取全连接前的扩展特征图,称它为判别完备特征(DiscriminativeCompleteFeatures);给定输入图像x,已训练好的滤波器组K和偏移b,卷积层的输出可以写成(公式一)的形式:(公式一)其中Mj表示所选择输入特征图的索引;l表示当前层的索引;i和j分别表示输入和输出特征图索引;o表示段索引;f表示激活函数,这里使用线性校正单元函数f(x)=max(x,0);*表示卷积操作;最大池化(max-pooling)层可以写成(公式二)的形式:(公式二)其中,m和n分别表示当前层的像素索引;s表示下采样核的大小;p和q分别表示前一层的像素索引,并且满足p=s*(m-1)+k+1,q=s*(n-1)+k+1,其中0<k<s;分号用于选择对应的列和行;为了使得获得的特征具有鲁邦的性质,可以把局部对比归一化层引入分段处理的环节中,该层可以写成(公式三)的形式:(公式三)其中,r表示制定的邻近竞争特征图的数目,N表示当前层总共的特征图数目,k,α,β是一些超参数,在训练过程中可以指定合适的浮点数值,当CNN模型训练好后,根据以上三个公式,可以获取判别完备特征为后续的基于平滑窗扫描提供支撑;D)把卷积神经网络的全连接看成一个线性分类器,直接基于判别完备特征图做检测,采用可能近似学习(probablyapproximatelycorrect)框架来估计线性分类器在判别完备特征上的泛化误差R[ω],然后根据组合模型(ensemblemodel)和所期望泛化误差H[ω]计算所需要训练模型数目q;(公式四)E)将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作,每一个模型获取o组全连接前的判别完备特征图,然后用最近邻插值算法对每本文档来自技高网
...
基于卷积神经网络的快速目标检测方法

【技术保护点】
基于卷积神经网络的快速目标检测方法,其特征在于包括以下步骤:A)准备训练样本集(xi,yi),i=1,……,N,N为训练样本数,N为自然数,xi表示训练样本对应的固定大小的图像,包含目标且目标充满画幅的图像是正样本,其他图像是负样本;yi表示样本类别向量:B)将所有训练样本分m批,将m‑2批样本放进设计的卷积神经网络里用反向传播算法训练,2批样本用于测试,所述卷积神经网络包含卷积层、最大池化层和局部对比归一化层三个成分,这三个成分扮演非线性函数的功能,目的是把位于流形上的原始图像映射到欧式空间,卷积的激活函数采用非线性校正单元,设计好包含这三个成分的网络结构模型后,用反向传播算法训练对模型进行训练,得到参数W;C)提取步骤B)中的训练好的参数W,采用扩展图的方式解决卷积神经网络中最大池化丢失信息的问题,给定测试图像,针对2×2的卷积核中每个偏移,都保存一个对应的特征图,称为扩展图;对于每一层max‑pooling核大小为K,整个卷积神经网络有p层,扩展之后每个最大池化的下采样层特征图数目扩展至2K倍,整个网络扩展到o=(2K)p倍,然后把参数W用于任意大小的待检测图像,获取全连接前的扩展特征图,称它为判别完备特征;给定输入图像x,已训练好的滤波器组K和偏移b,卷积层的输出写成公式一的形式:xojl=f(Σi∈Mjxoil-1*kijl+bjl),]]>           (公式一)其中Mj表示所选择输入特征图的索引;l表示当前层的索引;i和j分别表示输入和输出特征图索引;o表示段索引;f表示激活函数,这里使用线性校正单元函数f(x)=max(x,0);*表示卷积操作;最大池化层写成公式二的形式:xojl(m,n)=max(xojl-1(p:(p+s),q:(q+s))),]]>      (公式二)其中,m和n分别表示当前层的像素索引;s表示下采样核的大小;p和q分别表示前一层的像素索引,并且满足p=s*(m‑1)+k+1,q=s*(n‑1)+k+1,其中0<k<s;分号用于选择对应的列和行;为了使得获得的特征具有鲁邦的性质,把局部对比归一化层引入分段处理的环节中,该层写成公式三的形式:xojl(m,n)=xojl(m,n)(k+αΣi=max(0,j-r2)min(N-1,j+r2)xoil(m,n2)β),]]>      (公式三)其中,r表示制定的邻近竞争特征图的数目,N表示当前层总共的特征图数目,k,α,β是一些超参数,在训练过程中指定合适的浮点数值,当CNN模型训练好后,根据以上三个公式,获取判别完备特征为后续的基于平滑窗扫描提供支撑;D)把卷积神经网络的全连接看成一个线性分类器,直接基于判别完备特征图做检测,采用可能近似学习框架来估计线性分类器在判别完备特征上的泛化误差R[ω],然后根据组合模型和所期望泛化误差H[ω]计算所需要训练模型数目q;(公式四)E)将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作,每一个模型获取o组全连接前的判别完备特征图,然后用最近邻插值算法对每组判别完备特征图缩放,得到n*o组判别完备特征图,q个模型共计n*o*q组判别完备特征图,然后在每组判别完备特征图上直接用线性分类器执行密集平滑窗分类工作得到n*o*q组响应图,其中线性分类器和判别完备图的点积操作转成卷积操作;F)对n*o*q中的每o组响应图采用非极大值得到n*q组响应图,然后对n*q响应图中的每n个响应图执行非极大值抑制得到q组具有真实尺度的响应图,把q组响应图执行与运算得到一个具有真实尺度的最终响应图,计算最终响应图中的每一个联通区域的质心:G)把质心和真实尺度映射到原待检测图中,根据每一个质心位置和尺度值画出对应的矩形框,完成目标检测。...

【技术特征摘要】
1.基于卷积神经网络的快速目标检测方法,其特征在于包括以下步骤:A)准备训练样本集(xi,yi),i=1,……,N,N为训练样本数,N为自然数,xi表示训练样本对应的固定大小的图像,包含目标且目标充满画幅的图像是正样本,其他图像是负样本;yi表示样本类别向量:B)将所有训练样本分m批,将m-2批样本放进设计的卷积神经网络里用反向传播算法训练,2批样本用于测试,所述卷积神经网络包含卷积层、最大池化层和局部对比归一化层三个成分,这三个成分扮演非线性函数的功能,目的是把位于流形上的原始图像映射到欧式空间,卷积的激活函数采用非线性校正单元,设计好包含这三个成分的网络结构模型后,用反向传播算法训练对模型进行训练,得到参数W;C)提取步骤B)中的训练好的参数W,采用扩展图的方式解决卷积神经网络中最大池化丢失信息的问题,给定测试图像,针对2×2的卷积核中每个偏移,都保存一个对应的特征图,称为扩展图;对于每一层max-pooling核大小为K,整个卷积神经网络有p层,扩展之后每个最大池化的下采样层特征图数目扩展至2K倍,整个网络扩展到o=(2K)p倍,然后把参数W用于任意大小的待检测图像,获取全连接前的扩展特征图,称它为判别完备特征;给定输入图像x,已训练好的滤波器组K和偏移b,卷积层的输出写成公式一的形式:其中Mj表示所选择输入特征图的索引;l表示当前层的索引;i和j分别表示输入和输出特征图索引;o表示段索引;f表示激活函数,这里使用线性校正单元函数f(x)=max(x,0);*表示卷积操作;最大池化层写成公式二的形式:其中,m和n分别表示当前层的像素索引;s表示下采样核的大小;p和q分别表示前一层的像素索引,并且满足p=s*(m-1)+k+1,q=s*(n-1)+k+1,其中0<k<s;分号用于选择对应的列和行;为了使得获得的特征具有鲁邦的性质,把局部对比归一化层引入分段处理的环节中,该层写成公式三的形式:其中,r表示制定的邻近竞争特征图的数目,N表示当前层总共的特征图数目,k,α,β是一些超参数,在训练过程中指定合适的浮点数值,当CNN模型训练好后,根据以上三个公式,获取判别完备特征为后续的基于平滑窗扫描提供支撑;D)把卷积神经网络的全连接看成一个线性分类器,直接基于判别完备特征图做检测,采用可能近似学习框架来估计线性分类器在判别完备特征上的泛化误差R[ω],然后根据组合模型和所期望泛化误差H[ω]计算所需要训练模型数目q;E)将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作,每一个模型获取o组全连接前的判别完备特征图,然后用最近邻插值算法对每组判别完备特征图缩放,得到n*o组判别完备特征图,q个模型共计n*o*q组判别完备特征图,然后在每组判别完备特征图上直接用线性分类器执行密集平滑窗分类工作得到n*o*q组响应图,其中线性分类器和判别完备图的点积操作转成卷积操作;F)对n*o*q中的每o组响应图采用非极大值得到n*q组响应图,然后对n*q响应图中的每n个响应图执行非极大值抑制得到q组具有真实尺度的响应图,把q组响应图执行与运...

【专利技术属性】
技术研发人员:王菡子郭冠军严严
申请(专利权)人:厦门大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1