基于多尺度的卷积特征的行人检测方法技术

技术编号:21185317 阅读:50 留言:0更新日期:2019-05-22 15:56
本发明专利技术公开了一种基于多尺度的卷积特征的行人检测方法,其包括获取待识别图像,并将其转换为设定尺寸后存储为转换图像;将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;将第一特征图输入区域推荐网络中,得到前景的推荐区域;截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图;截取第一特征图和所有第二特征图上与第三特征图相对应区域的特征图;将同一第三特征图截取的所有特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率。

Pedestrian detection method based on multi-scale convolution feature

The invention discloses a pedestrian detection method based on multi-scale convolution feature, which includes acquiring the image to be recognized and converting it into a set size and storing it as a converted image; inputting the converted image into the VGG16 network model for feature extraction, and storing the output of the last down-sampling layer as the first feature map, and storing the output of the convolution layer before each down-sampling layer as the first one. Second feature map; input the first feature map into the area recommendation network to get the recommendation area of the foreground; intercept the region corresponding to the converted image and the recommendation area as a sub-image, and input the sub-image into the VGG16 network model to get the third feature map of each sub-image; intercept the feature map of the first feature map and all the second feature map corresponding to the third feature map; The third feature map is mosaic of all the feature maps, and then input into the recognition network to identify, and get the probability that the recommended area is the pedestrian.

【技术实现步骤摘要】
基于多尺度的卷积特征的行人检测方法
本专利技术涉及图像识别领域,具体涉及一种基于多尺度的卷积特征的行人检测方法。
技术介绍
由于公共区域管理和安全的需求,智能视频监控成为计算机视觉的重要应用之一。智能视频监控的关键步骤是目标检测,尤其是行人检测,准确的目标检测为后续的智能分析提供了良好基础,例如,目标跟踪、目标识别、人数统计、行人验证等等。现有目标检测方法可以分为传统目标检测方法和基于卷积神经网络的目标检测方法。传统目标检测方法的研究重点在于技巧性地设计合适的特征和强大的分类器,例如:HoG+SVM、HoG+DPM、DOT+RF等等。由于设计的特征表达能力不强,导致传统目标检测方法不能取得令人满意的检测结果,因此,为了提高特征的表达能力,研究者提出了基于卷积神经网络的目标检测方法,例如:DCNN、R-CNN、FasterR-CNN等等。行人检测主要是在目标检测的基础上进行迁移和改进,现在主要用到的是基于深度卷积神经网络的行人检测方法,该方法主要利用了卷积核具有较强的特征提取能力,在提取行人特征后,利用这些特征预测行人位置。2015年,在InternationalConferenceonNeuralInformationProcessingSystems第91-99页发表的名叫FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks的文章提供了一种基于深度卷积网络的对象检测方法。该方法先训练了一个叫做RPN的深度卷积网络。该卷积网络利用已经标定好的图像和标定框的参数信息来训练。训练完毕后的RPN具有推荐包含前景目标区域的能力。对于这些推荐的区域,我们采用ROI池化层将局部特征图转化为统一尺寸后输入到全连接的深度网络中进行判别,区分目标的类别。FasterR-CNN改进了原来的FastR-CNN,用RPN取代了原有的SelectiveSearch方法来推荐区域。把目标区域的推荐全部交给CNN来处理,这不仅利用了CNN特征提取的优势来提高推荐区域的准确度,还可以减少计算时间。基于FasterR-CNN的行人检测方法采用了RPN网络进行前景对象的推荐,然后用全连接网络来判别是否是行人。但是对于图片中的小图像,经过卷积网络特征提取后,会使产生的特征图分别率不够,因而后面全连接的分类网络不能准确分别出该对象是否是行人,这就导致了远景的行人经常被忽略,从而影响整体的行人识别率。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的基于多尺度的卷积特征的行人检测方法解决了现有的行人检测方法对图像中的小目标行人无法识别或识别率不高的缺陷。为了达到上述专利技术目的,本专利技术采用的技术方案为:提供一种基于多尺度的卷积特征的行人检测方法,其包括:获取待识别图像,并将其转换为设定尺寸后存储为转换图像;将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;将第一特征图输入区域推荐网络中,得到前景的推荐区域;截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图;截取第一特征图和所有第二特征图上与第三特征图相对应区域的特征图;将同一第三特征图截取的所有特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率。进一步地,VGG16网络模型由重复的卷积层和下采样层组成,其中,卷积层的计算和下采样层的计算分别为:其中,为l层的第j张特征图;为第l层的卷积核;为第l层的平移参数。进一步地,将第一特征图输入区域推荐网络中,得到前景的推荐区域进一步包括:根据预设尺寸将转换图像分割成不重叠的子区域,并以每个子区域内任一点为矩形区块的中心,设置k种长宽不同的矩形区块;将第一特征图输入区域推荐网络中两个独立的卷积层reg和卷积层cls中;采用卷积层reg预测得到每个矩形区块的微调参数,采用卷积层cls输出每个矩形区块的特征图;根据每个矩形区块对应的微调参数,对相应矩形区块的位置进行微调:x=xa+wa*tx,y=ya+ha*ty,其中,xa、ya、ha和wa分别为同一个矩形区块的中心横坐标、中心纵坐标,长和宽;tx、ty、tw和th分别为同一矩形区块中心横坐标、纵坐标、宽和长的微调参数;采用softmax函数对每个矩形区块的特征图进行处理,得到矩形区块是行人的预判概率:outcls=f(o),其中,o为卷积层cls输出的特征图;outcls为卷积层cls最后输出;xi,xj均为矩阵最后一维中的一个元素;为对矩阵最后一维中的每个元素进行e的指数运算后累加求和,e为自然对数;f(xi)为softmax函数;根据计算得到的所有矩形区块是行人的预判概率,删除预判概率低于设定阈值的矩形区块,并将余下的矩形区块作为推荐区域。进一步地,识别网络中对拼接后的特征图进行识别的方法为:计算推荐区域是行人的概率:out1=f(WF6+b),out2=f(Wout1+b),其中,W为全连接层的变换矩阵;F6为同一区域对应的所有特征图拼接在一起后变成的一维向量;b为平移参数;out1为前一层的输出;f是sigmod函数;out2为推荐区域是行人的概率;x为矩阵中的一个元素;e是自然对数;根据所有推荐区域是行人的概率,采用NMS算法去除重合率大于预设阈值的推荐区域,余下的推荐区域是行人的概率为最后的检测结果。进一步地,所述识别网络为3层的全连接神经网络。进一步地,当设定尺寸为M*N时,预设尺寸为(M/32)*(N/32)。本专利技术的有益效果为:本方案采用第一特征图与区域推荐网络结合得到推荐区域,之后将推荐区域截取转换图像部分输入VGG16网络模型得到第三特征图,第三特征图在截取特征图过程中是直接采用的之前输出的第一特征图和第二特征图,之后拼接在一起输入识别网络进行识别。在整个识别过程中识别网络只共享了VGG16网络模型输出的第一特征图,扩大推荐区域特征图的分辨率。增加了被识别特征图的有用信息,这样就解决了小区域特征图分辨率不足的问题,同时还提高对于小目标行人的识别率和召回率。本方案在进行行人识别时采用了共享卷积的设计方式,使得在人行检测时计算成本较小,运行时间较短,还是能符合实时检测的要求。附图说明图1为基于多尺度的卷积特征的行人检测方法的流程图。图2为VGG16网络模型的结构图。图3为对同一区域对应的所有特征图进行拼接的示意图。图4为识别网络的结构图。图5为本方案和现有的FasterR-CNN的召回率对比图,其中(a)为在INRIA公开数据集上试验的召回率对比图,(b)为在TUD公开数据集上试验的召回率对比图。图6为本方案和现有的FasterR-CNN的准确率对比图,其中(a)为在INRIA公开数据集上试验的准确率对比图,(b)为在TUD公开数据集上试验的准确率对比图。具体实施方式下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。参考图1,本文档来自技高网
...

【技术保护点】
1.基于多尺度的卷积特征的行人检测方法,其特征在于,包括:获取待识别图像,并将其转换为设定尺寸后存储为转换图像;将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;将第一特征图输入区域推荐网络中,得到前景的推荐区域;截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图;截取第一特征图和所有第二特征图上与第三特征图相对应区域的特征图;将同一第三特征图截取的所有特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率。

【技术特征摘要】
1.基于多尺度的卷积特征的行人检测方法,其特征在于,包括:获取待识别图像,并将其转换为设定尺寸后存储为转换图像;将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;将第一特征图输入区域推荐网络中,得到前景的推荐区域;截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图;截取第一特征图和所有第二特征图上与第三特征图相对应区域的特征图;将同一第三特征图截取的所有特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率。2.根据权利要求1所述的基于多尺度的卷积特征的行人检测方法,其特征在于,所述VGG16网络模型由重复的卷积层和下采样层组成,其中,卷积层的计算和下采样层的计算分别为:其中,为l层的第j张特征图;为第l层的卷积核;为第l层的平移参数。3.根据权利要求1所述的基于多尺度的卷积特征的行人检测方法,其特征在于,将第一特征图输入区域推荐网络中,得到前景的推荐区域进一步包括:根据预设尺寸将转换图像分割成不重叠的子区域,并以每个子区域内任一点为矩形区块的中心,设置k种长宽不同的矩形区块;将第一特征图输入区域推荐网络中两个独立的卷积层reg和卷积层cls中;采用卷积层reg预测得到每个矩形区块的微调参数,采用卷积层cls输出每个矩形区块的特征图;根据每个矩形区块对应的微调参数,对相应矩形区块的位置进行微调:x=xa+wa*tx,y=ya+ha*ty,其中,xa、ya、ha和wa分别为同一个矩形...

【专利技术属性】
技术研发人员:邹腾涛杨尚明
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1