当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于滑动窗口的目标检测位置矫正方法和装置制造方法及图纸

技术编号:20046661 阅读:57 留言:0更新日期:2019-01-09 04:43
本发明专利技术公开了一种基于滑动窗口的目标检测位置矫正方法和装置,设置滑动窗口的宽度和移动步幅,利用滑动窗口分割待检测目标的图像,得到若干个候选目标区域;将所有候选目标区域送入CNN神经网络进行训练处理,得到所有候选目标区域的置信度;选取置信度最大值与该最大值对应的索引区域为基准值;利用位置矫正方法与基准值对候选目标区域进行裁剪和组合,形成新的目标区域。本发明专利技术针对图像中单一目标,以卷积神经网络和滑动窗口为基础,给出了可组合、裁剪的定位方法,提高目标识别的准确度和速度。

【技术实现步骤摘要】
一种基于滑动窗口的目标检测位置矫正方法和装置
本专利技术涉及图像处理领域,具体涉及一种基于滑动窗口的目标检测位置矫正方法和装置。
技术介绍
众所周知,当前是信息时代,信息的获得、加工、处理以及应用都有了飞跃发展。人们认识世界的重要知识来源就是图像信息,在很多场合,图像所传送的信息比其他形式的信息更丰富、真切和具体。人眼与大脑的协作使得人们可以获取、处理以及理解视觉信息,人类利用视觉感知外界环境信息的效率很高。事实上,据一些国外学者所做的统计,人类所获得外界信息有80%左右是来自眼睛摄取的图像。由此可见,视觉作为人类获取外界信息的主要载体,计算机要实现智能化,就必须能够处理图像信息。尤其是近年来,以图形、图像、视频等大容量为特征的图像数据处理广泛应用于医学、交通、工业自动化等领域。近年来,机器学习受到学术和工程上的广泛关注。在机器学习中,卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种深度前馈人工神经网络,通常包括卷积层(convolutionlayer)、归一化层(normalizationlayer)、池化层(poolinglayer)和全连接层(full-connectedlayer),已成功地应用于图像识别。现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像并对图像进行分类等操作,因而得到了更为广泛的应用。目标检测是图像处理、目标识别领域的重要内容,其主要任务为从一幅给定图像中定位目标和分类,其中基于滑窗搜索的方法在目标检测中得到广泛应用。但传统滑窗(slidingwindow)搜索技术存在缺点有:(1)窗口大小固定,分割图像的大小不会因为目标大小而改变;(2)若有多组大小不同滑动窗口同时工作,势必会增加计算量,影响效率;(3)当滑动步幅密集时,数据量增加,影响速度;当滑动步幅过大时,影响检测准确率。综上所述,现有技术中对于目标检测的准确率和效率低的问题,尚缺乏有效的解决方案。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供了一种基于滑动窗口的目标检测位置矫正方法和装置,针对图像中单一目标,以卷积神经网络和滑动窗口为基础,给出了可组合、裁剪的定位方法,提高目标识别的准确度和速度。本专利技术所采用的技术方案是:本专利技术的第一目的是提供一种基于滑动窗口的目标检测位置矫正方法,该方法包括以下步骤:设置滑动窗口的宽度和移动步幅,利用滑动窗口分割待检测目标的图像,得到若干个候选目标区域;将所有候选目标区域送入CNN神经网络进行训练处理,得到所有候选目标区域的置信度;选取置信度最大值与该最大值对应的索引区域为基准值;利用位置矫正方法与基准值对候选目标区域进行裁剪和组合,形成新的目标区域。进一步的,根据所有待检测物体的平均大小确定滑动窗口的宽度;滑动窗口的移动布幅小于等于滑动窗口宽度的一半。进一步的,所述将所有候选目标区域送入CNN神经网络进行训练处理的步骤包括:将与目标区域相关率小于阈值I的候选目标区域作为噪音,将与目标区域相关率大于阈值I的候选目标区域作为目标,分别输入到CNN神经网络中训练;利用训练好的CNN神经网络得到所有候选目标区域的置信度。进一步的,当噪音区域过多时,利用随机抽样方法随机删除多个噪音区域,或者删除相应训练集的图片。进一步的,在CNN神经网络输出的所有置信度中,选取置信度最大值,将该置信度最大值与该置信度最大值对应的索引区域为基准值。进一步的,根据滑动窗口的宽度与待检测目标的大小,将广度遍历的深度作为遍历约束条件,当广度遍历的最大深度小于等于2时进行位置矫正。进一步的,所述利用位置矫正方法与基准值对候选目标区域进行裁剪和组合方法为:以最大置信度对应索引区域为中心点区域;设置区域强弱阈值T1、置信度激活阈值T2和置信度抑制阈值T3;以中心点区域为原点,上下左右四个相邻区域为当前候选扩散区域;以广度遍历算法为基础,将当前扩散区域置信度与索引区域中心点最大置信度做差,并将扩散区域置信度与置信度激活阈值、置信度抑制阈值分别进行比较;若当前扩散区域某个方向置信度与最大置信度的差值小于T1,且扩散区域置信度大于T2,则将中心区域向该扩散区域对应的方向扩大边界;若当前扩散区域某个方向置信度小于T3,则说明目标区域在该方向没有延伸,待检测目标在最大值对应的索引区域内,将中心区域对应方向反方向缩小。本专利技术的第二目的是提供一种基于滑动窗口的目标检测位置矫正装置,该装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:设置滑动窗口的宽度和移动步幅,利用滑动窗口分割待检测目标的图像,得到若干个候选目标区域;将所有候选目标区域送入CNN神经网络进行训练处理,得到所有候选目标区域的置信度;选取置信度最大值与该最大值对应的索引区域为基准值;利用位置矫正方法与基准值对候选目标区域进行裁剪和组合,形成新的目标区域。与现有技术相比,本专利技术的有益效果是:(1)本专利技术根据待检测物体的平均大小设置滑动窗口的大小,使得在组合和裁剪目标区域时有较好的弹性,能够在较少的组合、裁剪操作下检测出目标所在的区域;并将移动步幅设置为低于滑动窗口的大小的一半,保证窗口有较大重叠区的前提下,提高目标检测的速度;(2)本专利技术以广度遍历方法为基础,根据滑动窗口大小与检测目标真实大小添加广度遍历的深度为遍历约束条件,即广度遍历最大深度小于等于2时进行组合、裁剪,进而将待检测目标的高矮胖瘦进行描述,而非是一个原始的正方形,有效提高目标检测的准确度。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1是本专利技术实施例一的基于滑动窗口的目标检测位置矫正方法流程图;图2是本专利技术实施例二的基于滑动窗口的目标检测位置矫正方法流程图;图3是图像候选目标区域属性值示意图;图4是最大深度示意图;图5是裁剪候选区域示例图;图6是组合候选区域示例图。具体实施方式下面结合附图与实施例对本专利技术作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。正如
技术介绍
所介绍的,现有滑窗(slidingwindow)搜索技术存在窗口大小固定,分割图像的大小不会因为目标大小而改变,若有多组大小不同滑动窗口同时工作,势必会增加计算量,影响效率,当滑动步幅密集时,数据量增加,影响速度,当滑动步幅过大时,影响检测准确率的不足。针对上述的不足,本专利技术实施例一提供了一种基于滑动窗口的目标检测位置矫正方法。如图1所示,该方法包括如下步骤:S101,设置滑动窗口大小和移动步幅,利用滑动窗口分割图像。先采集待检测物体的图像;本文档来自技高网
...

【技术保护点】
1.一种基于滑动窗口的目标检测位置矫正方法,其特征是,包括以下步骤:设置滑动窗口的宽度和移动步幅,利用滑动窗口分割待检测目标的图像,得到若干个候选目标区域;将所有候选目标区域送入CNN神经网络进行训练处理,得到所有候选目标区域的置信度;选取置信度最大值与该最大值对应的索引区域为基准值;利用位置矫正方法与基准值对候选目标区域进行裁剪和组合,形成新的目标区域。

【技术特征摘要】
1.一种基于滑动窗口的目标检测位置矫正方法,其特征是,包括以下步骤:设置滑动窗口的宽度和移动步幅,利用滑动窗口分割待检测目标的图像,得到若干个候选目标区域;将所有候选目标区域送入CNN神经网络进行训练处理,得到所有候选目标区域的置信度;选取置信度最大值与该最大值对应的索引区域为基准值;利用位置矫正方法与基准值对候选目标区域进行裁剪和组合,形成新的目标区域。2.根据权利要求1所述的基于滑动窗口的目标检测位置矫正方法,其特征是,根据所有待检测物体的平均大小确定滑动窗口的宽度;滑动窗口的移动布幅小于等于滑动窗口宽度的一半。3.根据权利要求1所述的基于滑动窗口的目标检测位置矫正方法,其特征是,所述将所有候选目标区域送入CNN神经网络进行训练处理的步骤包括:将与目标区域相关率小于阈值I的候选目标区域作为噪音,将与目标区域相关率大于阈值I的候选目标区域作为目标,分别输入到CNN神经网络中训练;利用训练好的CNN神经网络得到所有候选目标区域的置信度。4.根据权利要求3所述的基于滑动窗口的目标检测位置矫正方法,其特征是,当噪音区域过多时,利用随机抽样方法随机删除多个噪音区域,或者删除相应训练集的图片。5.根据权利要求1所述的基于滑动窗口的目标检测位置矫正方法,其特征是,在CNN神经网络输出的所有置信度中,选取置信度最大值,将该置信度最大值与该置信度最大值对应的索引区域为基准值。6.根据权利要求1所述的基于滑动窗口的目标检测位置矫正方法,其特征是,根据滑动...

【专利技术属性】
技术研发人员:赵梦莹张俊男李睿豪潘煜贾智平蔡晓军
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1