当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于图像区域内聚测度的目标发现方法技术

技术编号:13569582 阅读:93 留言:0更新日期:2016-08-21 11:55
一种基于图像区域内聚测度的目标发现方法,涉及计算机视觉技术。提供可快速给出少量的目标建议窗口,使得目标建议窗口内尽可能包含目标的一种基于图像区域内聚测度的目标发现方法。同时解决目标检测和显著性检测问题。提出的图像区域内聚测度的方法还被应用于显著性检测,显著性检测也被作为计算机视觉任务的一项基本任务并广泛被应用于其他计算机视觉任务。

【技术实现步骤摘要】

本专利技术涉及计算机视觉技术,具体是涉及一种基于图像区域内聚测度的目标发现方法
技术介绍
人类感知世界一个重要来源就通过视觉信息,研究表明,人类获取外界信息中大约有80%~90%的信息来自于人类眼睛获取的视觉信息。人类对外界视觉信息感知能力很高,可以快速的定位目标和分析目标。计算机视觉的主要任务之一就是希望让计算机具备类似人类强大的目标检测和识别能力。目标检测是视觉感知和目标理解的一个重要的前提工作,目标获取的效率和精度决定着视觉感知的速度和效果。因此,对计算机视觉中的目标检测技术进行深入研究,不断提高检测和识别的准确率,具有重要的现实意义。目前学术界中解决这个问题的发展趋势是从使用启发式方法到使用机器学习的方法。所用特征也从手工特征转向基于任务自适应提取的特征。目标检测和识别的模型也开始出现从单一特定目标检测和识别到多目标检测和识别同时进行的功能转变。最典型的例子就是深度学习模型的出现,解决了传统目标检测和识别的模型只针对有限任务的目标检测和识别任务有效的问题。比如,在2001年时,Viola‐Jone[1]提出的正面人脸检测框架基于Harr特征对人脸检测相当有效,但是对于侧脸人脸以及行人检测效果不是太好。直到2005年,Dalal等人[2]提出HOG特征并且使用SVM对每个平滑窗对应的HOG(Histogram ofGradient)特征进行分类的策略后,垂直行人检测效果才有了一个质的突破。然而,HOG这一手工特征,对于图像分类和识别以及任意姿态的行人、动物、植物等目标的检测效果并不令人满意。接着形变模型[3](Deformable Part Models:DPM)应运而生,解决有形变的目标检测问题。形变模型虽然试着解决因形变导致目标检测不到的问题,但是其模型中需要的形变部件现实中有时很难被捕获到,原因就没有一个好的模型和好的特征来识别部件,因此它在多类目标检测数据集(比如PASCAL VOC,ImageNet)上效果并不是太好。最近的一个突破性工作是深度学习模型的出现。在最大的图像分类和目标检测数据集ImageNet上,基于深度学习模型之一卷积神经网络(CNN)做的目标检测和识别精度的提高更是超过以往最高精度一倍之多。最近两年ImageNet数据集分类和检测性能出众的算法几乎全部采用卷积神经网络,不同的它们的网络结构不同。目前ImageNet数据集上图像分类和目标检测最高的精度分别为95%和55%。尽管基于卷积神经网络的方法在目标检测和识别上提高了很高的精度,但是由于卷积神经网络网络复杂且计算量大,应用在目标检测上效率并不是很高,目前很多方法都是基于GPU来对目标检测程序进行加速。给定一张目标图像,使用平滑窗策略进行目标检测,但即使采用GPU加速,其算法复杂度仍然很大,效率极低。为了解决卷积神经网络在目标检测上的效率问题,目前主流的解决方案可以分为三类。第一类是基于图割的方法[4],先对给定图像进行图像分割,通过分割块得到一些潜在的目标区域。然后用卷积神经网络对这些目标区域进行特征提取和分类,最终得到目标的位置。这种方法的缺点是依赖于图像分割的性能。第二类是通过卷积神经网络对原始图像提取特征,然后在特征图上用平滑窗策略做目标位置的回归和目标的分类[5]。这种方法在利用卷积神经网络对大图提取特征时,会丢失一些对分类和回归有用的特征信息,因此最后得到的模型性能无法达到最优。第三类方法则是用卷积神经网络分类的优势来寻找部件,进而构建形变模型,采用形变模型的思想对目标做检测[6]。但是这种把卷积神经网络的分类和形变模型中的目标检测分开执行的做法,使得整体框架的检测性能一般,另外这种模型的效率也不是很高。参考文献:[1]P.Viola and M.Jones.Robust real time object detection.In IEEE ICCVWorkshop on Statistical and Computational Theories of Vision,2001.[2]N.Dalal and B.Triggs,“Histograms of Oriented Gradients for HumanDetection,”Proc.IEEE Conf.Computer Vision and Pattern Recognition,2005.[3]P.F.Felzenszwalb,R.B.Girshick,D.McAllester,and D.Ramanan,“ObjectDetection with Discriminatively Trained Part Based Models,”IEEE Trans.PatternAnalysis and Machine Intelligence,vol.32,no.9,pp.1627‐1645,Sept.2010.[4]R.Girshick,J.Donahue,T.Darrell,and J.Malik.Rich featurehierarchies for accurate object detection and semantic segmentation.In CVPR,2014.[5]P.Sermanet,D.Eigen,X.Zhang,M.Mathieu,R.Fergus,andY.LeCun.Overfeat:Integrated recognition,localization and detection usingconvolutional networks.CoRR,2013.[6]Ross B.Girshick,Forrest N.Iandola,Trevor Darrell,JitendraMalik.Deformable Part Models are Convolutional Neural Networks.CoPR,2014.
技术实现思路
本专利技术的目的在于提供可快速给出少量的目标建议窗口,使得目标建议窗口内尽可能包含目标的一种基于图像区域内聚测度的目标发现方法。本专利技术包括以下步骤:A.给定高为h,宽为w的彩色图像上每一个像素pi(x,y),其中i为像素下标,x和y分别为像素的横坐标和纵坐标,该像素pi(x,y)在RGB颜色空间中的坐标为:pi=<ri,gi,bi>,其中r,g,b分别表示红绿蓝三颜色分量的值。基于包含pi的一个固定尺寸大小的平滑窗口Ωk(其中k=x×w+y表示窗口下标,窗口大小通常为3*3或者5*5),pi的局部归一化向量定义为:其中μk为窗口Ωk内像素的均值,σk为窗口Ωk内像素的方差,τ为一个很小的常数以防止除0,运算符/在(公式一)表示为点除。H(pi)赋予每个像素点一个局部的线性表述。基于(公式一),窗口Ωk内任意两个像素的局部归一化向量的内积定义为:H(pi)T·H(pj)=(pi-μk)T(∑k+τE)-1(pj-μk), (公式二)其中∑k为窗口Ωk内像素的协方差,E为单位矩阵,T表示矩阵转置操作,(公式二)表示窗口内任意两个像素之间的相似度。B.对于高为h,宽为w的彩色图像中任意两个像素之间的相似度可以表述成一个相似度矩阵:其中C为一个常数,用于区分窗口Ωk内相似度为0的区域和本文档来自技高网
...

【技术保护点】
一种基于图像区域内聚测度的目标发现方法,其特征在于包括以下步骤:A.给定高为h,宽为w的彩色图像上每一个像素pi(x,y),其中i为像素下标,x和y分别为像素的横坐标和纵坐标,该像素pi(x,y)在RGB颜色空间中的坐标为:pi=<ri,gi,bi>,其中r,g,b分别表示红绿蓝三颜色分量的值;基于包含pi的一个固定尺寸大小的平滑窗口Ωk其中k=x×w+y表示窗口下标,窗口大小通常为3×3或者5×5,pi的局部归一化向量定义为:其中μk为窗口Ωk内像素的均值,σk为窗口Ωk内像素的方差,τ为一个很小的常数以防止除0,运算符/在公式一表示为点除;H(pi)赋予每个像素点一个局部的线性表述;基于公式一,窗口Ωk内任意两个像素的局部归一化向量的内积定义为:H(pi)T·H(pj)=(pi‑μk)T(∑k+τE)‑1(pj‑μk),      (公式二)其中∑k为窗口Ωk内像素的协方差,E为单位矩阵,T表示矩阵转置操作,公式二表示窗口内任意两个像素之间的相似度;B.对于高为h,宽为w的彩色图像中任意两个像素之间的相似度可以表述成一个相似度矩阵:其中C为一个常数,用于区分窗口Ωk内相似度为0的区域和窗口Ωk之外的区域;相似矩阵A是一个N×N的矩阵,其中N=w*h;矩阵D是一个对角矩阵,其每一个元素通过奇异值分解,公式二,即公式三分子部分,可以分解成:H(pi)T·H(pj)=ω·(U(pi‑μk)T(pj‑μk)),    (公式四)其中是权向量ω的一个元素;表示协方差矩阵∑k的第z个特征值;公式四等式右边表示像素pi和pj在以U的列向量为坐标轴构成坐标系的内积;另外,权重ω可以使得该内积对于光照的变化鲁棒;比如当同一颜色值受光照影响时,亮度值会发生变化;此时若直接计算量像素的像素值,则会发生误测;然而在某一颜色分量z的亮度方差比较大的小窗口内,对应协方差矩阵的特征值也比较大,因此除以该特征值可以平衡相似度值受光照的影响;C.计算步骤B中的相似矩阵A的特征向量,该过程写成形式化表达如下:Av=λv           (公式五)其中v表示特征向量,λ表示特征值;总体上每个特征向量v代表了一个聚类结果,对应的特征值表示聚类结果的内聚测度值;每一个主成分都代表了一个图像中的潜在目标或者目标部件;D.把步骤C中的每个特征向量转换成二维图像格式,然后把值归一到[0,255]内,该过程定义如下:其中vk表示相似矩阵A的第k个特征向量,min(v)表示取特征向量v里的最小值,max(v)表示取特征向量v里的最大值,mod(k,w)表示k对w取余数,二维格式的V(x,y)被称为对象图,每一个特征向量对应了一个对象图;因此,每个对象图里也包含了一个图像中的潜在目标或者目标部件;E.把步骤D中的对象图应用于显著性检测,显著性检测的目的是分割出图像中潜在的显著性目标,用阈值的方法来分割对象图里的显著性目标,其可以通过以下公式计算:其中Tc代表给定的阈值,V*(x,y)代表阈值化结果,由于一个对象图只代表了图像中的一个或者部分显著性目标,为了尽可能多的找到全部显著性目标,多个对象图的组合也被提出,该过程定义如下:其中mh代表对象图中最外围像素的均值,Vs达标组合对象图;公式七中的阈值计算方法也可以被用于公式八获得的组合对象图Vs以分割显著性目标;F.把步骤D中的对象图应用于目标建议窗口的生成;坎尼边缘算子被应用在每一个对象图上以获取对象的边缘,所以联通边缘的外界矩形都是一个潜在的目标建议窗口;对多个目标图获取的潜在目标建议窗口做一次筛选,对于两两潜在目标窗口重叠率大于0.9的窗口去除一个;最终剩下的潜在目标窗口为最终得到的目标建议窗口。...

【技术特征摘要】
1.一种基于图像区域内聚测度的目标发现方法,其特征在于包括以下步骤:A.给定高为h,宽为w的彩色图像上每一个像素pi(x,y),其中i为像素下标,x和y分别为像素的横坐标和纵坐标,该像素pi(x,y)在RGB颜色空间中的坐标为:pi=<ri,gi,bi>,其中r,g,b分别表示红绿蓝三颜色分量的值;基于包含pi的一个固定尺寸大小的平滑窗口Ωk其中k=x×w+y表示窗口下标,窗口大小通常为3×3或者5×5,pi的局部归一化向量定义为:其中μk为窗口Ωk内像素的均值,σk为窗口Ωk内像素的方差,τ为一个很小的常数以防止除0,运算符/在公式一表示为点除;H(pi)赋予每个像素点一个局部的线性表述;基于公式一,窗口Ωk内任意两个像素的局部归一化向量的内积定义为:H(pi)T·H(pj)=(pi-μk)T(∑k+τE)-1(pj-μk), (公式二)其中∑k为窗口Ωk内像素的协方差,E为单位矩阵,T表示矩阵转置操作,公式二表示窗口内任意两个像素之间的相似度;B.对于高为h,宽为w的彩色图像中任意两个像素之间的相似度可以表述成一个相似度矩阵:其中C为一个常数,用于区分窗口Ωk内相似度为0的区域和窗口Ωk之外的区域;相似矩阵A是一个N×N的矩阵,其中N=w*h;矩阵D是一个对角矩阵,其每一个元素通过奇异值分解,公式二,即公式三分子部分,可以分解成:H(pi)T·H(pj)=ω·(U(pi-μk)T(pj-μk)), (公式四)其中是权向量ω的一个元素;表示协方差矩阵∑k的第z个特征值;公式四等式右边表示像素pi和pj在以U的列向量为坐标轴构成坐标系的内积;另外,权重ω可以使得该内积对于光照的变化鲁棒;比如当同一颜色值受光照影响时,亮度值会发生变化;此时若直接计算量像素的像素值,则会发生误测;然而在某一颜色分量z的亮度方差比较大的小窗口内,对应协方差矩阵的特征值也比较大,因此除以该特征值可以平衡相似度值受光照的影响;C.计算步骤B中的相似矩阵A的特征向量,该过程写成形式化表达如下:Av=λv (公式五)其中v表示特征向量,λ表示特征值;总体上每个特征向量v代表了一个聚类结果,对应的特征值表示聚类结果的内聚测度值;每一个主成分都代表了一个图像中的潜在目标或者目标部件;D.把步骤C中的每个特征向量转换成二维图...

【专利技术属性】
技术研发人员:王菡子郭冠军赵万磊严严沈春华
申请(专利权)人:厦门大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1