基于卷积神经网络的目标定位方法及装置制造方法及图纸

技术编号:14568622 阅读:365 留言:0更新日期:2017-02-06 02:19
本发明专利技术提供基于卷积神经网络的目标定位方法及装置,该方法包括:提取训练样本的CNN特征;使用CNN特征对SVM分类器进行训练,得到第一级分类器;使用第一级分类器和训练样本在不同尺度下缩放的图像的CNN特征对SVM分类器进行训练,得到第二级分类器;提取测试样本的CNN特征,利用第一级分类器进行检测,得到多个测试目标框及对应的一级得分;利用第二级分类器对极大值抑制后的剩余测试目标框进行打分,得到每个剩余测试目标框的二级得分;对每个剩余测试目标框的一级得分和二级得分进行加权处理,并每个剩余测试目标框进行排序。应用本发明专利技术进行目标定位时并不受限于场景,而且目标定位的准确性高。

【技术实现步骤摘要】

本专利技术涉及机器视觉
,尤其涉及一种基于卷积神经网络的目标定位方法及装置
技术介绍
目标定位是机器视觉中的一个重要技术,定位到目标后,系统可方便地对目标进行存储、分析、3D建模、识别、跟踪和搜索等后续处理,因此目标定位的准确性直接影响到对目标的分析、识别、跟踪和搜索等的效果。现有技术中,一般通过对图像进行预处理排除一些干扰因素,例如利用滤波对图像进行去噪处理,图像增强,量化;然后利用基于行人的HOG(HistogramofGradient,方向梯度直方图)特征,或者基于人脸的Gabor纹理特征,以及FAST匹配算法以及SIFT(Scale-invariantfeaturetransform,尺度不变特征变换)等方法对预处理后的图像进行特征提取得到一些基于区域的特征信息,比如纹理、直方图、边缘等;最后利用区域合并的方式得到目标框,可使用选择性搜索(SelectiveSearch)来得到目标框,即实现目标定位。现有技术中,预处理技术难以做到自适应处理,因此需要对不同场景设置不同的参数来确保预处理的效果,难以保证后续特征提取的准确性;而HOG特征或者Gabor特征只能描述目标的某一种显著性特征,受限于某些场景,缺乏普适性;而为了能够在不同场景中有效合并相似的小区域得到最终的目标框,使用选择性搜索(SelectiveSearch)得到的目标框数量比较多,在图像中出现多目标的情况下,得到的目标框可能就接近全图(即多个目标可能分不开),可影响后续对目标的分析、识别、跟踪和搜索等的效果。
技术实现思路
本专利技术提供一种基于卷积神经网络的目标定位方法及装置,以解决现有技术中在目标定位时受限于某些场景,缺乏普适性,准确性低的问题。根据本专利技术实施例的第一方面,提供一种基于卷积神经网络的目标定位方法,所述方法包括:提取训练样本的CNN(ConvolutionalNeuralNetwork,卷积神经网络)特征;使用所述CNN特征对SVM(SupportVectorMachines,支持向量机)分类器进行训练,得到级联SVM分类器的第一级分类器;使用所述第一级分类器和所述训练样本在不同尺度下缩放的图像的CNN特征,对SVM分类器进行训练,得到所述级联SVM分类器的第二级分类器;提取测试样本的CNN特征,并且利用所述第一级分类器进行检测,得到多个测试目标框及多个测试目标框的一级得分;使用非极大值抑制算法对所述多个测试目标框进行抑制,并利用所述第二级分类器对抑制后的剩余测试目标框进行打分,得到每个剩余测试目标框的二级得分;对每个剩余测试目标框的一级得分和二级得分进行加权处理,得到每个剩余测试目标框的分数,并根据所述剩余测试目标框的分数对每个剩余测试目标框进行排序。根据本专利技术实施例的第二方面,提供一种基于卷积神经网络的目标定位装置,所述装置包括:提取单元,用于提取训练样本的卷积神经网络CNN特征;训练单元,用于使用所述CNN特征对SVM分类器进行训练,得到级联SVM分类器的第一级分类器;并使用所述第一级分类器和所述训练样本在不同尺度下缩放的图像的CNN特征,对SVM分类器进行训练,得到所述级联SVM分类器的第二级分类器;测试单元,用于提取测试样本的CNN特征,并且利用所述第一级分类器进行检测,得到多个测试目标框及多个测试目标框的一级得分;使用非极大值抑制算法对所述多个测试目标框进行抑制,并利用所述第二级分类器对抑制后的剩余测试目标框进行打分,得到每个剩余测试目标框的二级得分;计算单元,用于对每个剩余测试目标框的一级得分和二级得分进行加权处理,得到每个剩余测试目标框的分数;排序单元,用于根据所述剩余测试目标框的分数对每个剩余测试目标框进行排序。应用本专利技术实施例,通过提取训练样本的CNN特征,使用提取的CNN特征对SVM分类器进行训练,得到级联SVM分类器的第一级分类器;使用第一级分类器和训练样本在不同尺度下缩放的图像的CNN特征,对SVM分类器进行训练,得到级联SVM分类器的第二级分类器;提取测试样本的CNN特征,并且利用第一级分类器进行检测,得到多个测试目标框及多个测试目标框的一级得分;使用非极大值抑制算法对多个测试目标框进行抑制,并利用第二级分类器对抑制后的剩余测试目标框进行打分,得到每个剩余测试目标框的二级得分;对每个剩余测试目标框的一级得分和二级得分进行加权处理,得到每个剩余测试目标框的分数,并根据剩余测试目标框的分数对每个剩余测试目标框进行排序。根据测试目标框的得分排序可以定位目标,因此使用本专利技术的技术方案进行目标定位时并不受限于场景,具有普适性,而且通过级联SVM分类器的第一级分类器和第二级分类器进行目标检测提高了目标定位的准确性,由此本专利技术解决了现有技术中在目标定位时受限于某些场景,缺乏普适性,准确性低的问题。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本专利技术的原理。图1为本专利技术一种实施方式中基于卷积神经网络的目标定位方法流程图;图2为本专利技术一种实施方式中基于卷积神经网络的目标定位装置所在设备的一种硬件结构图;图3为本专利技术一种实施方式中基于卷积神经网络的目标定位装置框图。具体实施方式为便于对本专利技术的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本专利技术保护范围的限定。本专利技术实施例提供的技术方案可应用于机器视觉
,可应用于智能交通场景下的机动车、非机动车、行人等多目标或者单目标的定位,还可应用于公安图像侦查中目标物体,如帽子、雨伞等的定位,以及泛卡口智能分析技术中某些特定目标的定位。本申请文件中提及的训练样本和测试样本为前景图片,该前景图片可能包含比较多的背景;而正样本为目标确切位置的图片,该图片基本不包含背景元素,负样本为目标位置不确切的图片,该图片也基本不包含背景元素。参见图1,为本专利技术一种实施方式中基于卷积神经网络的目标定位方法流程图,本专利技术实施例的执行主体可为具有图形处理能力的任意设备,这里以图形处理设备为执行主体进行描述:步骤101:生成标定好的训练样本数据集。其中,标定好的训练样本集包括每个训练样本的目标图片以及每个目标的标定好的位置,每个目标标定好的位置可为一个区域,如可为一个100像素*200像素的区域。生成标定好的训练样本数据集后,可将该训练样本数据集存储为XML...

【技术保护点】
一种基于卷积神经网络的目标定位方法,其特征在于,所述方法包括:提取训练样本的卷积神经网络CNN特征;使用所述CNN特征对支持向量机SVM分类器进行训练,得到级联SVM分类器的第一级分类器;使用所述第一级分类器和所述训练样本在不同尺度下缩放的图像的CNN特征,对SVM分类器进行训练,得到所述级联SVM分类器的第二级分类器;提取测试样本的CNN特征,并且利用所述第一级分类器进行检测,得到多个测试目标框及多个测试目标框的一级得分;使用非极大值抑制算法对所述多个测试目标框进行抑制,并利用所述第二级分类器对抑制后的剩余测试目标框进行打分,得到每个剩余测试目标框的二级得分;对每个剩余测试目标框的一级得分和二级得分进行加权处理,得到每个剩余测试目标框的分数,并根据所述剩余测试目标框的分数对每个剩余测试目标框进行排序。

【技术特征摘要】
1.一种基于卷积神经网络的目标定位方法,其特征在于,所述方法包括:
提取训练样本的卷积神经网络CNN特征;
使用所述CNN特征对支持向量机SVM分类器进行训练,得到级联SVM
分类器的第一级分类器;使用所述第一级分类器和所述训练样本在不同尺度
下缩放的图像的CNN特征,对SVM分类器进行训练,得到所述级联SVM
分类器的第二级分类器;
提取测试样本的CNN特征,并且利用所述第一级分类器进行检测,得
到多个测试目标框及多个测试目标框的一级得分;使用非极大值抑制算法对
所述多个测试目标框进行抑制,并利用所述第二级分类器对抑制后的剩余测
试目标框进行打分,得到每个剩余测试目标框的二级得分;
对每个剩余测试目标框的一级得分和二级得分进行加权处理,得到每个
剩余测试目标框的分数,并根据所述剩余测试目标框的分数对每个剩余测试
目标框进行排序。
2.根据权利要求1所述的方法,其特征在于,所述训练样本包括正样本
和负样本;
所述使用所述CNN特征对支持向量机SVM分类器进行训练,得到级联
SVM分类器的第一级分类器,包括:
分别将所述正样本和所述负样本的CNN特征输入所述SVM分类器进行
训练,将得到的分类器归一化处理,得到所述级联SVM分类器的第一级分
类器。
3.根据权利要求1所述的方法,其特征在于,所述使用所述第一级分类
器和所述训练样本在不同尺度下缩放的图像的CNN特征,对SVM分类器进
行训练,得到所述级联SVM分类器的第二级分类器,包括:
提取所述训练样本按照不同缩放尺度下的图像的CNN特征;
使用所述第一级分类器对每个尺度下的CNN特征进行检测,得到每个

\t尺度下的多个训练目标框及每个训练目标框的一级得分;
对每个尺度下的多个训练目标框使用非极大值抑制算法进行抑制,得到
每个尺度下的剩余训练目标框;
将每个尺度下的剩余训练目标框分为训练正样本目标框和训练负样本目
标框;
分别将每个尺度下的训练正样本目标框和训练负样本目标框的一级得分
输入所述SVM分类器进行训练,得到每个尺度下的第二级分类器;
将每个尺度下的第二级分类器连接在一起,得到级联SVM分类器的第
二级分类器。
4.根据权利要求3所述的方法,其特征在于,所述将每个尺度下的剩余
训练目标框分为训练正样本目标框和训练负样本目标框,包括:
计算每个尺度下的剩余训练目标框的位置与标定好的位置的重合度;
判断所述重合度是否大于预设阈值,如果是,则所述剩余训练目标框为
训练正样本目标框,否则为训练负样本目标框。
5.根据权利要求3所述的方法,其特征在于,所述提取所述训练样本按
照不同缩放尺度下的图像的CNN特征,包括:
对所述训练样本按照不同缩放尺度进行缩放处理,针对每个缩放尺度进
行缩放处理后的图像,提取对应缩放尺度下的CNN特征;或者,
对所述训练样本提取原CNN特征,根据不同的缩放尺度,对所述原CNN
特征进行计算,得到对应缩放尺度下的C...

【专利技术属性】
技术研发人员:王智玉
申请(专利权)人:浙江宇视科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1