一种基于深度学习的复杂公共场景快速行人检测方法技术

技术编号:19778952 阅读:23 留言:0更新日期:2018-12-15 11:32
本发明专利技术涉及一种基于深度学习的复杂公共场景快速行人检测方法,包括:对训练图像和测试图像进行像素大小预处理,基于分类任务对卷积神经网络进行预训练,基于行人检测任务对卷积神经网络进行行人检测训练,使用阈值过滤消除置信度较低的预测方框,使用非最大抑制消除对同一行人的多重预测。在预训练中,采用交叉熵作为损失函数。最终采用改进的均方误差作为损失函数,使网络输出预测行人所在位置方框的回归结果。在测试阶段,将图像作为卷积神经网络的输入,采用阈值过滤和非最大抑制对卷积神经网络所有输出预测结果进行过滤,即得到检测行人的位置信息,由此实现行人的智能监控。

【技术实现步骤摘要】
一种基于深度学习的复杂公共场景快速行人检测方法
本专利技术涉及图像处理技术,特别是涉及一种基于卷积神经网络的公共场景快速行人检测方法。
技术介绍
近几年,监控摄像头被应用在各个公共场所,机场、车站、医院、道路等公共场景覆盖了成千上万的监控摄像头,检测出公共场景中的行人对于分析人流量、发现人流的异常行为,对特定人群进行跟踪意义重大。由于视频数据量巨大且行人较多,依靠人工分析,往往难以快速准确地分析出目标行人。而现有的一些自动行人检测方法往往速度较慢,不能完成对行人目标的实时监控。为了实现公共场景下行人的自动实时检测,研究一种在公共场景快速行人检测方法有重要意义。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种检测精度高、检测速度快的基于卷积神经网络的公共场景快速行人检测方法,大大提高了检测精度,同时,可以实现对行人的实时检测。为了达到上述目的,本专利技术提出的技术方案为:一种基于卷积神经网络的公共场景快速行人检测方法,实现步骤如下:步骤1、读取训练数据库图片训练所使用的数据库图片,采用双线性插值算法,将其像素大小拉伸或压缩为固定大小A×B。步骤2、使用训练数据库,对卷积神经网络进行基于分类任务的预训练。将调整像素大小的训练数据库图片作为输入,通过网络输出分类结果,与输入图片对应标签进行比较,计算损失函数。最小化损失函数,对卷积神经网络进行预训练。步骤3、读取特定场景的数据库的图片,采用双线性插值算法,将其像素大小拉伸或压缩为固定大小。步骤4、继承预训练网络所得权值,改变卷积神经网络末端结构,使用特定场景的数据库,针对于行人检测的任务,对神经网络进行调整训练。训练中将特定场景的图像作为输入,将卷积神经网络的输出与对应图片的标签进行运算,计算损失函数。最小化损失函数,训练卷积神经网络。步骤5、读取公共场景下的行人视频,将视频分解成单个帧,再采用双线性插值算法,将其像素大小拉伸或压缩为固定大小。步骤6、使用训练好的网络,对图片中的行人进行目标检测。将调整好像素大小的待测图片输入到已有网络中,通过卷积神经网络提取图像中目标物体的特征,最后通过两层全连接层输出一个7×7×(2×5)维的张量。该张量表示了卷积神经网络对待测行人所做出的98个预测方框。步骤7,设定置信度C的阈值C_threshold,对卷积神经网络生成的98个预测方框进行过滤。舍弃置信度C小于设定阈值C_threshold的预测方框。步骤8,采用非最大抑制对重叠度较高的预测方框进行过滤。当不同预测方框交集部分面积与并集部分面积的比例超过规定的阈值IOU_threshold时,则仅保留置信度C最大的预测方框,而对其它方框进行抑制。保留下的预测方框数据x,y,w,h,C即为检测到的目标行人的空间位置坐标和预测置信度。所述步骤2中,预训练卷积神经网络的过程如下:步骤i)训练网络使用图1所示网络的前20层卷积层及对应的池化层,再在后面加上一层均值池化层和全连接层。步骤ii)将转换大小的训练数据库图片固定大小个像素所对应的RGB空间的A×B×3维的张量数据作为卷积神经网络的输入,输出为各分类结果的概率yi。步骤iii)计算网络输出概率yi′与标签概率之间的交叉熵作为损失函数,最小化损失函数loss,对网络进行预训练。所述步骤4中,对卷积神经网络基于行人检测进行最终训练的方法如下:步骤i)保留预训练网路中前20层卷积层和对应池化层的结构,并继承其对应的权值,在后面增加4层卷积层和2层全连接层,并随机设置初始权值,使其网络结构如图1所示。步骤ii)网络的最后一层全连接层采用线性激活函数:f(x)=x,而其他的全连接层和卷积层采用带泄露的线性整流激活函数(LeakyReLu):f(x)=max(x,0.1x)。步骤iii)训练样本为转化大小的特定场景的数据库的图片及其对应的标签。将图片A×B像素所对应的RGB空间的A×B×3维的张量数据作为卷积神经网络的输入。神经网络的输出为7×7×(2×5)维张量。表示对被测目标所做的98个预测方框。每一个方框有x,y,w,h,C这5个数据。步骤iv)读取特定场景的数据库对应图片的标签,搜索其中行人目标对应的真实方框数据,计算出与网络输出的预测方框数据x,y,w,h,C相对应的标签数据x′,y′,w′,h′,C′=P×IOU。计算过程中,假想将整张均匀图片划分成7×7个格子,若行人目标真实方框的中心坐标落在某一个格子中,则生成一组标签x′,y′,w′,h′,C′=P×IOU。x′,y′为真实方框中心点的坐标,其值在0~1之间,若行人所在真实方框中心点的坐标在对应格子的左下角,则其值为(0,0),若其在格子的右上角,则其值为(1,1)。w′,h′为真实方框的长和宽,其值在0~1之间,若方框的长或宽对应的像素大小为0,则其值为0,若方框的长或宽对应的像素大小为448,则其值为1。C′=P×IOU,其中P=1,IOU为预测方框x,y,w,h和真实方框x′,y′,w′,h′表示范围的交集与并集面积之比。步骤v)计算预测值x,y,w,h,C和标签值x′,y′,w′,h′,C′=P×IOU对应的改进均方误差损失函数:其中λcoord=5,λnoord=0.5,i表示7×7个格子中的第i个,j表示每个格子的2个预测方框中的第j个。若行人目标的中心坐标落在第i个格子的且该格子对应的第j个预测方框与真实行人所在方框有着最大的IOU,则且否则且最小化损失函数loss,对网络进行训练。综上所述,本专利技术所述的一种基于卷积神经网络的公共场景快速行人检测方法,包括:对公共场景下的视频进行单帧分解,在分解出来的视频帧中,使用双线性插值的方法将图片转换成固定的像素大小。行人检测网络的训练分为预训练和最终训练两个过程,在预训练中,使用训练数据库作为训练样本,基于分类任务进行训练,定义交叉熵函数作为损失函数,通过损失函数来训练整个网络,在最终训练过程中,继承预训练网络的大部分结构和权值,对网络进行改进,使用特定场景的数据库基于回归任务进行训练,定义改进的均方误差函数作为损失函数,通过最小化损失函数来训练整个网络。在测试过程中,以转换后大小的视频帧作为输入,通过神经网路输出所有的目标行人预测结果,将输出结果采用阈值过滤和非最大抑制进行过滤,最终得到框出行人位置的方框,由此实现行人的快速检测。本专利技术与现有技术相比的优点在于:(1)本专利技术使用单一的卷积神经网络,对视频帧图像特征进行提取,在行人的检测过程中,将视频帧图像作为输入,通过卷积神经网络的处理直接输出框出目标行人位置的方框。在训练和测试过程中,均采用端到端的方法,因此检测速度快。本方法可以广泛应用于社区、医院、机场、车站、学校等复杂场景中,对目标行人做出实时检测。(2)本专利技术采用深度学习中的卷积神经网络提取视频帧图像的特征,使用训练数据库和特定场景的数据库进行训练。在训练过程中,卷积神经网络学习了各种各样行人目标的姿态,并从中不断提取和学习行人目标的高维特征,因此,该方法具有泛化能力强,鲁棒性强的特点,可以应用于各种不同的场景,对外貌特征各异的目标行人进行检测。本附图说明为本专利技术实现流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本专利技术作进一步地详细描述。本专利技术所述本文档来自技高网...

【技术保护点】
1.一种基于深度学习的复杂公共场景快速行人检测方法,其特征在于实现步骤如下:步骤1、读取ImageNet数据库图片训练所使用的数据库图片,采用双线性插值算法,将其像素大小拉伸或压缩为A×B。步骤2、使用训练数据库,对卷积神经网络进行基于分类任务的预训练。将调整像素大小的训练数据库图片作为输入,通过网络输出分类结果,与输入图片对应标签进行比较,计算损失函数。最小化损失函数,对卷积神经网络进行预训练。步骤3、读取特定场景的数据库的图片,采用双线性插值算法,将其像素大小拉伸或压缩为A×B。步骤4、继承预训练网络所得权值,改变卷积神经网络末端结构,使用特定场景的数据库,针对于行人检测的任务,对神经网络进行调整训练。训练中将特定场景的图像作为输入,将卷积神经网络的输出与对应图片的标签进行运算,计算损失函数。最小化损失函数,训练卷积神经网络。步骤5、读取公共场景下的行人视频,将视频分解成单个帧,再采用双线性插值算法,将其像素大小拉伸或压缩为A×B。步骤6、使用训练好的网络,对图片中的行人进行目标检测。将调整好像素大小的待测图片输入到已有网络中,通过卷积神经网络提取图像中目标物体的特征,最后通过两层全连接层输出一个7×7×(2×5)维的张量。该张量表示了卷积神经网络对待测行人所做出的98个预测方框。步骤7,设定置信度C的阈值C_threshold,对卷积神经网络生成的98个预测方框进行过滤。舍弃置信度C小于设定阈值C_threshold的预测方框。步骤8,采用非最大抑制对重叠度较高的预测方框进行过滤。当不同预测方框交集部分面积与并集部分面积的比例超过规定的阈值IOU_threshold时,则仅保留置信度C最大的预测方框,而对其它方框进行抑制。保留下的预测方框数据x,y,w,h,C即为检测到的目标行人的空间位置坐标和预测置信度。...

【技术特征摘要】
1.一种基于深度学习的复杂公共场景快速行人检测方法,其特征在于实现步骤如下:步骤1、读取ImageNet数据库图片训练所使用的数据库图片,采用双线性插值算法,将其像素大小拉伸或压缩为A×B。步骤2、使用训练数据库,对卷积神经网络进行基于分类任务的预训练。将调整像素大小的训练数据库图片作为输入,通过网络输出分类结果,与输入图片对应标签进行比较,计算损失函数。最小化损失函数,对卷积神经网络进行预训练。步骤3、读取特定场景的数据库的图片,采用双线性插值算法,将其像素大小拉伸或压缩为A×B。步骤4、继承预训练网络所得权值,改变卷积神经网络末端结构,使用特定场景的数据库,针对于行人检测的任务,对神经网络进行调整训练。训练中将特定场景的图像作为输入,将卷积神经网络的输出与对应图片的标签进行运算,计算损失函数。最小化损失函数,训练卷积神经网络。步骤5、读取公共场景下的行人视频,将视频分解成单个帧,再采用双线性插值算法,将其像素大小拉伸或压缩为A×B。步骤6、使用训练好的网络,对图片中的行人进行目标检测。将调整好像素大小的待测图片输入到已有网络中,通过卷积神经网络提取图像中目标物体的特征,最后通过两层全连接层输出一个7×7×(2×5)维的张量。该张量表示了卷积神经网络对待测行人所做出的98个预测方框。步骤7,设定置信度C的阈值C_threshold,对卷积神经网络生成的98个预测方框进行过滤。舍弃置信度C小于设定阈值C_threshold的预测方框。步骤8,采用非最大抑制对重叠度较高的预测方框进行过滤。当不同预测方框交集部分面积与并集部分面积的比例超过规定的阈值IOU_threshold时,则仅保留置信度C最大的预测方框,而对其它方框进行抑制。保留下的预测方框数据x,y,w,h,C即为检测到的目标行人的空间位置坐标和预测置信度。2.根据权利要求1所述的一种基于单卷积神经网络的行人检测方法,其特征在于:所述步骤2中,预训练卷积神经网络的过程如下:步骤i)训练网络使用图1所示网络的前20层卷积层及对应的池化层,再在后面加上一层均值池化层和全连接层。步骤ii)将转换大小的训练数据库图片224×224个像素所对应的RGB空间的224×224×3维的张量数据作为卷积神经网络的输入,输出为各分类结果的概率yi。步骤iii)计算网...

【专利技术属性】
技术研发人员:张峰
申请(专利权)人:北京图示科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1