基于改进的FasterRCNN的行人检测方法技术

技术编号:32636676 阅读:12 留言:0更新日期:2022-03-12 18:11
本发明专利技术公开了基于改进的Faster RCNN的行人检测方法,首先通过ResNet

【技术实现步骤摘要】
基于改进的Faster RCNN的行人检测方法


[0001]本专利技术属于图像处理与计算机视觉
,涉及基于改进的Faster RCNN的行人检测方法。

技术介绍

[0002]目标检测是最重要的计算机视觉任务之一,处理在杂乱的现实场景或输入图像中某一类物体的视觉实例的检测。由于其广泛的应用,目标检测近年来引起了人们极大的关注。目标检测主要包括两项任务:目标定位和目标分类。对象定位通过在一个或多个对象实例周围绘制一个边界框来确定其位置和比例。分类是指为该对象分配类标签的过程。在检测方面,目标检测系统从一组训练数据中构建模型,在泛化方面,需要提供大量的训练数据集。
[0003]目前,智能监控摄像头的普及与图像处理技术的发展为智能监控提供了很好的发展前提。行人流量统计在智能监控中运用广泛,具体可运用于医院、施工现场、学校、商场等等,准确的流量统计可以帮助工作人员进行合理的资源配置,相关部门可以根据行人流量曲线最大限度地预防公共安全事件的发生,及早拟定应急预案。行人流量统计的基础就是行人检测,通过统计行人检测的结果绘出行人流量曲线。
[0004]行人检测作为目标检测的具体应用,具体过程为:给出输入图像或者视频帧,判断图像中是否有行人,有的话框出行人位。
[0005]近十年来,人工智能在人类生活的各个领域都产生了影响,而深度学习就是利用人工神经网络进行表示学习的人工智能领域。深度学习的应用在目标检测领域占领了主要地位,目前,主流的基于深度学习的目标检测算法可分为两种,基于候选框的Two
‑<br/>Stage算法和基于回归的One

Stage算法。基于候选框的Two

Stage算法主要包括RCNN、Fast RCNN、Faster RCNN和Mask RCNN等;基于回归的One

Stage算法主要包括Yolo系列、SSD等。Two

Stage目标检测算法由于事先获取候选框,能够充分学习到目标的特征,其检测精度和定位精度高,但是网络结构复杂,计算量大,检测速度较慢,不适合用于实时性要求较高的应用场景。One

Stage目标检测算法结构简单,可直接对输入图像进行处理,检测速度快,可以应用于实时性检测,但One

Stage算法对小目标、多目标物体检测精度较低。

技术实现思路

[0006]本专利技术的目的是提供基于改进的Faster RCNN的行人检测方法,传统的Faster RCNN网络RPN模型的边框回归损失只考量了锚盒与真值框坐标值之间的差距,没有考虑它们之间的重叠情况,从而导致Faster RCNN检测目标精度不高,为了克服这一缺点,本专利技术提供基于改进的Faster RCNN行人检测方法,提高Faster RCNN行人检测的准确率。
[0007]本专利技术所采用的技术方案是,基于改进的Faster RCNN的行人检测方法,首先通过ResNet

50神经网络提取样本图像的特征图,然后将所得特征图输入RPN模型,并修改了RPN模型的边框回归损失函数,生成候选框;最后将特征图和候选框发送到ROI Head模型,得到
目标的类别和定位;具体操作步骤如下:
[0008]步骤1:对ResNet

50网络进行预训练,提取行人图像的特征图;
[0009]步骤2:利用RPN模型在图像的特征图上生成候选框,得到1:1比例的正负样本;将所述正负样本作为标签去训练RPN模型,得到候选框中目标的类别和初步定位信息,所述类别包括前景和背景;
[0010]步骤3:利用RPN模型得到候选框中的目标的类别、初步定位信息和ResNet

50网络得到的特征图,对随机初始化参数得到的ROI Head模型进行训练,得到目标的类别和定位。
[0011]本专利技术的特点还在于,
[0012]步骤1具体如下:
[0013]采用VOC2007数据集对ResNet

50神经网络进行预训练,得到网络权重,将预训练好的权重加载到Faster RCNN的ResNet

50网络,得到预训练后的ResNet

50网络;之后的训练过程冻结ResNet

50网络部分,即ResNet

50网络的参数不进行反向传播,不进行梯度更新;将图像输入预训练好的ResNet

50网络,得到行人图像的特征图。
[0014]步骤2生成候选框的方法具体如下:
[0015]设定RPN模型初始化信息,所述初始化信息包括锚盒的尺寸、比例;RPN模型的锚盒尺寸为:8
×
8、16
×
16、32
×
32,其中8
×
8、16
×
16适用于小的行人检测,32
×
32适用于大的行人检测;这三种尺寸每种尺寸按1:1,1:2,2:1的长宽比例缩放,共9种尺寸作为RPN模型需要评估的候选框;训练RPN模型的目标就是对特征图中的每个锚点对应的9个锚盒,预测其是否是一个存在目标的框;框与真值框的交并比IoU&gt;0.7就认为这个框是一个候选框,反之,则不是;
[0016]将步骤1中得到的特征图输入RPN模型,改善RPN模型的边框回归损失,以提高检测识别精度,最后生成候选框。
[0017]训练RPN模型的具体方法如下:
[0018]将一个二进制分类标签(二进制分类标签为{0,1})分配给每个锚盒,其中0表示负样本,1表示正样本;如果一个锚盒跟所有真值框之一的交并比IoU大于0.7,则称之为正样本;如果一个锚盒跟所有真值框的交并比IoU小于0.3,则称之为负样本;剩下的框既不是正样本也不是负样本,不用于最终的训练;将真值框与回归输出的候选框的定位做比较,用梯度下降法来训练RPN模型;
[0019]训练RPN模型的损失函数定义如下:
[0020][0021]其中,一个训练批次mini

batch是由一幅图像中最终选取的所有正负样本组成,其中正负样本的比例为1:1;i表示一个mini

batch中第i个锚点,p
i
表示第i个锚点对应的锚盒是目标的概率,值在[0,1]之间;正样本的为1,负样本的为0;b
i
表示锚盒的定位信息,是分类损失函数,是边框回归损失函数;表示只对正样本进行边框回归操作;分类和回归操作分别输出候选框是目标的概率p
i
和候选框的定位信息b
i
,这两项分别由N
cls
和N
reg
以及平衡权重λ归一化,N
cls
为mini

batch的大小,N
reg
为锚点的数量;锚点是ResNet
...

【技术保护点】

【技术特征摘要】
1.基于改进的Faster RCNN的行人检测方法,其特征在于,首先通过ResNet

50神经网络提取样本图像的特征图,然后将所得特征图输入RPN模型,并修改了RPN模型的边框回归损失函数,生成候选框;最后将特征图和候选框发送到ROI Head模型,得到目标的类别和定位;具体操作步骤如下:步骤1:对ResNet

50网络进行预训练,提取行人图像的特征图;步骤2:利用RPN模型在图像的特征图上生成候选框,得到1:1比例的正负样本;将所述正负样本作为标签去训练RPN模型,得到候选框中目标的类别和初步定位信息,所述类别包括前景和背景;对步骤3:利用RPN模型得到候选框中的目标的类别、初步定位信息和ResNet

50网络得到的特征图,对随机初始化参数得到的ROI Head模型进行训练,得到目标的类别和定位。2.根据权利要求1所述的基于改进的Faster RCNN的行人检测方法,其特征在于,步骤1具体如下:采用VOC2007数据集对ResNet

50神经网络进行预训练,得到网络权重,将预训练好的权重加载到Faster RCNN的ResNet

50网络,得到预训练后的ResNet

50网络;之后的训练过程冻结ResNet

50网络部分,即ResNet

50网络的参数不进行反向传播,不进行梯度更新;将图像输入预训练好的ResNet

50网络,得到行人图像的特征图。3.根据权利要求1所述的基于改进的Faster RCNN的行人检测方法,其特征在于,步骤2生成候选框的方法具体如下:设定RPN模型初始化信息,所述初始化信息包括锚盒的尺寸、比例;RPN模型的锚盒尺寸为:8
×
8、16
×
16、32
×
32,其中8
×
8、16
×
16适用于小的行人检测,32
×
32适用于大的行人检测;这三种尺寸每种尺寸按1:1,1:2,2:1的长宽比例缩放,共9种尺寸作为RPN模型需要评估的候选框;训练RPN模型的目标就是对特征图中的每个锚点对应的9个锚盒,预测其是否是一个存在目标的框;框与真值框的交并比IoU&gt;0.7就认为这个框是一个候选框,反之,则不是;将步骤1中得到的特征图输入RPN模型,改善...

【专利技术属性】
技术研发人员:赵志强马培红黑新宏赵钦何文娟马召熙
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1