一种基于深度学习的复杂公共场景快速行人检测方法技术

技术编号：19778952 阅读：23 留言：0更新日期：2018-12-15 11:32

本发明专利技术涉及一种基于深度学习的复杂公共场景快速行人检测方法，包括：对训练图像和测试图像进行像素大小预处理，基于分类任务对卷积神经网络进行预训练，基于行人检测任务对卷积神经网络进行行人检测训练，使用阈值过滤消除置信度较低的预测方框，使用非最大抑制消除对同一行人的多重预测。在预训练中，采用交叉熵作为损失函数。最终采用改进的均方误差作为损失函数，使网络输出预测行人所在位置方框的回归结果。在测试阶段，将图像作为卷积神经网络的输入，采用阈值过滤和非最大抑制对卷积神经网络所有输出预测结果进行过滤，即得到检测行人的位置信息，由此实现行人的智能监控。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的复杂公共场景快速行人检测方法
本专利技术涉及图像处理技术，特别是涉及一种基于卷积神经网络的公共场景快速行人检测方法。
技术介绍
近几年，监控摄像头被应用在各个公共场所，机场、车站、医院、道路等公共场景覆盖了成千上万的监控摄像头，检测出公共场景中的行人对于分析人流量、发现人流的异常行为，对特定人群进行跟踪意义重大。由于视频数据量巨大且行人较多，依靠人工分析，往往难以快速准确地分析出目标行人。而现有的一些自动行人检测方法往往速度较慢，不能完成对行人目标的实时监控。为了实现公共场景下行人的自动实时检测，研究一种在公共场景快速行人检测方法有重要意义。
技术实现思路
有鉴于此，本专利技术的主要目的在于提供一种检测精度高、检测速度快的基于卷积神经网络的公共场景快速行人检测方法，大大提高了检测精度，同时，可以实现对行人的实时检测。为了达到上述目的，本专利技术提出的技术方案为：一种基于卷积神经网络的公共场景快速行人检测方法，实现步骤如下：步骤1、读取训练数据库图片训练所使用的数据库图片，采用双线性插值算法，将其像素大小拉伸或压缩为固定大小A×B。步骤2、使用训练数据库，对卷积神经网络进行基于分类任务的预训练。将调整像素大小的训练数据库图片作为输入，通过网络输出分类结果，与输入图片对应标签进行比较，计算损失函数。最小化损失函数，对卷积神经网络进行预训练。步骤3、读取特定场景的数据库的图片，采用双线性插值算法，将其像素大小拉伸或压缩为固定大小。步骤4、继承预训练网络所得权值，改变卷积神经网络末端结构，使用特定场景的数据库，针对于行人检测的任务，对神经网络进行调整...

【技术保护点】
1.一种基于深度学习的复杂公共场景快速行人检测方法，其特征在于实现步骤如下：步骤1、读取ImageNet数据库图片训练所使用的数据库图片，采用双线性插值算法，将其像素大小拉伸或压缩为A×B。步骤2、使用训练数据库，对卷积神经网络进行基于分类任务的预训练。将调整像素大小的训练数据库图片作为输入，通过网络输出分类结果，与输入图片对应标签进行比较，计算损失函数。最小化损失函数，对卷积神经网络进行预训练。步骤3、读取特定场景的数据库的图片，采用双线性插值算法，将其像素大小拉伸或压缩为A×B。步骤4、继承预训练网络所得权值，改变卷积神经网络末端结构，使用特定场景的数据库，针对于行人检测的任务，对神经网络进行调整训练。训练中将特定场景的图像作为输入，将卷积神经网络的输出与对应图片的标签进行运算，计算损失函数。最小化损失函数，训练卷积神经网络。步骤5、读取公共场景下的行人视频，将视频分解成单个帧，再采用双线性插值算法，将其像素大小拉伸或压缩为A×B。步骤6、使用训练好的网络，对图片中的行人进行目标检测。将调整好像素大小的待测图片输入到已有网络中，通过卷积神经网络提取图像中目标物体的特征，最后通过两层...

【技术特征摘要】
1.一种基于深度学习的复杂公共场景快速行人检测方法，其特征在于实现步骤如下：步骤1、读取ImageNet数据库图片训练所使用的数据库图片，采用双线性插值算法，将其像素大小拉伸或压缩为A×B。步骤2、使用训练数据库，对卷积神经网络进行基于分类任务的预训练。将调整像素大小的训练数据库图片作为输入，通过网络输出分类结果，与输入图片对应标签进行比较，计算损失函数。最小化损失函数，对卷积神经网络进行预训练。步骤3、读取特定场景的数据库的图片，采用双线性插值算法，将其像素大小拉伸或压缩为A×B。步骤4、继承预训练网络所得权值，改变卷积神经网络末端结构，使用特定场景的数据库，针对于行人检测的任务，对神经网络进行调整训练。训练中将特定场景的图像作为输入，将卷积神经网络的输出与对应图片的标签进行运算，计算损失函数。最小化损失函数，训练卷积神经网络。步骤5、读取公共场景下的行人视频，将视频分解成单个帧，再采用双线性插值算法，将其像素大小拉伸或压缩为A×B。步骤6、使用训练好的网络，对图片中的行人进行目标检测。将调整好像素大小的待测图片输入到已有网络中，通过卷积神经网络提取图像中目标物体的特征，最后通过两层全连接层输出一个7×7×(2×5)维的张量。该张量表示了卷积神经网络对待测行人所做出的98个预测方框。步骤7，设定置信度C的阈值C_threshold，对卷积神经网络生成的98个预测方框进行过滤。舍弃置信度C小于设定阈值C_threshold的预测方框。步骤8，采用非最大抑制对重叠度较高的预测方框进行过滤。当不同预测方框交集部分面积与并集部分面积的比例超过规定的阈值IOU_threshold时，则仅保留置信度C最大的预测方框，而对其它方框进行抑制。保留下的预测方框数据x，y，w，h，C即为检测到的目标行人的空间位置坐标和预测置信度。2.根据权利要求1所述的一种基于单卷积神经网络的行人检测方法，其特征在于：所述步骤2中，预训练卷积神经网络的过程如下：步骤i)训练网络使用图1所示网络的前20层卷积层及对应的池化层，再在后面加上一层均值池化层和全连接层。步骤ii)将转换大小的训练数据库图片224×224个像素所对应的RGB空间的224×224×3维的张量数据作为卷积神经网络的输入，输出为各分类结果的概率yi。步骤iii)计算网...

【专利技术属性】
技术研发人员：张峰，
申请(专利权)人：北京图示科技发展有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人