当前位置: 首页 > 专利查询>中山大学专利>正文

基于深度网络增强的特定场景下行人检测器自动学习方法技术

技术编号:18972698 阅读:32 留言:0更新日期:2018-09-19 03:46
本发明专利技术公开了一种基于深度网络增强的特定场景下行人检测器自动学习方法,步骤是:在服务器端使用通用的数据集训练出第一神经网络和第二神经网络,第二神经网络部署到嵌入式设备中;通过嵌入式设备对当前场景的图像进行捕捉,获得新增图像样本,传送到服务器端;在服务器端利用之前训练好的第一神经网络对新增图像样本进行测试,根据测试得分对样本进行标注;估计当前高度行人检测框的大小,剔除正样本中检测框和估计的大小有明显差异的样本,保留剩余样本;服务器端对第二神经网络进行调优;将调优后的第二神经网络模型从服务器端重新部署到嵌入式设备中。本发明专利技术可以在特定场景下快速得到精准的行人检测模型。

Automatic learning method of pedestrian detector in specific scene based on deep network enhancement

The invention discloses an automatic learning method of a downlink human detector for a specific scene based on deep network enhancement. The steps are: training the first neural network and the second neural network with a general data set on the server side, deploying the second neural network to the embedded device, and image of the current scene through the embedded device. The new image samples are captured and transmitted to the server. The new image samples are tested by the first neural network trained before and labeled according to the test scores. The size of the current pedestrian detection frame is estimated, and the size of the detection frame and the estimation in the positive samples are eliminated. The second neural network is tuned on the server side, and the optimized second neural network model is redeployed from the server side to the embedded device. The invention can quickly acquire accurate pedestrian detection models in specific scenarios.

【技术实现步骤摘要】
基于深度网络增强的特定场景下行人检测器自动学习方法
本专利技术涉及视频监控中行人检测研究领域,特别涉及一种基于深度网络增强的特定场景下行人检测器自动学习方法。
技术介绍
随着摄像头监控范围的逐步扩大,怎么利用摄像头采集到的数据分析行人的行为、动作、轨迹已经成为当今社会的一个急切的需求,而这些需求的技术基础则是行人检测。行人检测由行人检测器来完成,行人检测器的任务是对当前场景下行人的位置进行估计,其在行人跟踪、行人识别等摄像头监控领域具有非常重要的作用。由于光照变化、摄像头角度变化、行人姿势变化等因素,行人检测到目前仍然是一个十分具有挑战性的问题。近年来在这方面有了非常大的进步,包括传统的HOG特征以及SVM分类器应用在行人检测已经取得不错的效果,最近的基于卷积神经网络的研究由于对于样本分布有着比较好的学习能力,因此更是将行人检测器的性能推进到了一个新的高度。然而,尽管当前这些研究都可以在行人检测这个问题上取得非常好的效果,但是这些基于学习的方法训练得到的行人检测器效果很大程度依赖训练集的分布,因此在另外的特定场景下工作时,由于测试集的分布和训练集的分布有着非常大的差异,这些差异可能来自场景的遮挡、图像质量等等,行人检测器的性能将会变得很不理想。另一方面,如果采取人工标注的方法去采集每一个特定场景下的数据来对模型进行训练的话,这样无疑是非常浪费人力的,当行人检测器的数量非常大的时候,这样的方法是不可取的。因此,如何利用自动学习方法来提高行人检测器对于特定场景下的适应能力是一个关键性问题。现有的方法主要有以下几类的方法:(1)基于上下文信息、行人大小的方法。参见XiaogangWang,MengWang,andWeiLi:Scene-SpecificPedestrianDetectionforStaticVideoSurveillance,IEEETPAMI36(2014)361–374。该类方法中,对当前场景以及行人大小进行建模,得到当前检测框为正样本以及负样本的概率,使用这种方法获得的正负样本来训练一个SVM分类器。(2)基于半监督和辅助检测器的方法。参见SiWu,ShufengWang,RobertLaganiere,ChengLiu,Hau-SanWong,andYongXu:ExploitingTargetDatatoLearnDeepConvolutionalNetworksforScene-AdaptedHumanDetection,IEEETIP(2017)。该类方法中,对于特定场景下有少量的正负样本的情况,通过少量的样本来训练一个辅助检测器,通过辅助检测器的输出得到来对更多的未标记进行标记,最后使用这些样本来训练一个用于该场景的模型。上述方法尚存在很多不足之处。首先,基于行人大小、背景建模等上下文信息来获得当前场景下的正负样本的,由于这样的信息并没有非常可靠,因此通过这样的方法来获得的样本拥有着比较大的噪声。同时,使用半监督的方法需要有一定数量由人工标注的样本,这样无疑是非常费时费力的。
技术实现思路
针对目前行人检测器在特定场景下不能很好地定位行人的情况,本专利技术提出一种基于深度网络增强的特定场景行人检测器自动学习方法,该方法使用服务器端和嵌入式系统联合工作,使得在嵌入式系统上工作的行人检测器获得对于当前场景下检测行人更加好的性能,能够更好地在特定场景下准确地定位到行人的位置以及对应的区域。本专利技术的目的通过以下的技术方案实现:基于深度网络增强的特定场景下行人检测器自动学习方法,包括步骤:(1)在服务器端使用通用的数据集训练出第一神经网络和第二神经网络,第二神经网络用于部署到嵌入式设备中;(2)通过嵌入式设备在进行行人检测的工作过程中,对当前场景的图像进行捕捉,获得新增图像样本,传送到服务器端;(3)在服务器端利用之前训练好的第一神经网络对新增图像样本进行测试,利用第一神经网络的测试得分对样本进行标注;(4)对嵌入式设备当前高度下行人检测框的大小进行估计,计算正样本中检测框和估计的行人检测框的差异值,若差异值超过阈值,则进行剔除,保留剩余样本;(5)服务器端利用上述剩余样本对第二神经网络进行调优;(6)将调优后的第二神经网络模型从服务器端重新部署到嵌入式设备中。本专利技术中第一神经网络是部署在服务器端,因此可设计结构复杂,提高训练的精度。第二神经网络用于部署到嵌入式设备,因此可设计结构简单,使得其在嵌入式设备上能满足速度要求,对于新增图像样本,由复杂的第一神经网络对样本进行测试和标注,筛选出得分高的样本,然后对第二神经网络进行调优,从而可以在特定场景下快速和准确的获得识别结果。优选的,步骤(1)中,在服务器端使用通用的数据集训练出第一神经网络和第二神经网络的步骤是:利用在除了当前场景外的其他多个场景下人工标注的数据作为通用的数据集,使用基于ResNet-101(101层残差网络)的FasterR-CNN(更快速的基于区域的卷积神经网络)作为第一神经网络,采用基于AlexNet的SSD(单帧多尺度检测器)作为第二神经网络。更进一步的,所述第一神经网络、第二神经网络在训练时采用的预训练网络,其网络参数的获取方法为:在ImageNet上训练得到用于分类的网络参数,将最后的卷积层之后的层去除后,取剩下的卷积层的参数作为当前训练时候的初始化参数。优选的,步骤(2)中,嵌入式设备使用FTP协议(文件传输协议)将新增图像样本传送到服务器端。更进一步的,通过嵌入式设备在进行行人检测的工作过程中,对采集的图像样本进行筛选,步骤是:设定当前设备检测到的行人数量为Np,若Np≥Tp,Tp为预设定的阈值,则将采集的图像作为新增图像样本,传送到服务器端,否则放弃当前图像。从而可以使得嵌入式设备收集到可能有效的样本,有效缩短接下来调优过程所需要的时间,同时增强调优结果的性能。(3)在服务器端利用之前训练好的第一神经网络对新增图像样本进行测试,利用第一神经网络的测试得分对样本进行标注;优选的,步骤(3)中,第一神经网络对新增图像样本进行测试和标注的步骤是:对于每个图像I,通过第一神经网络测试后的结果记为其中n为总的检测框个数,li为第i个检测框的位置向量,li=[xl,yl,xr,yr],(xl,yl)、(xr,yr)分别是检测框在图像位置上的左上角和右下角坐标,si为第i个检测框被判别为行人的概率,0≤si≤1;对于每一个检测框,使用设定阈值T进行判断是否为正样本,即对于样本{li,si},有:若si≥T,则{li,si}为正样本;若si<T,则{li,si}为负样本;将所有图像进行以上操作之后得到的所有正样本集合设为P,所有负样本集合设为N。优选的,步骤(4)中,对嵌入式设备当前高度下行人检测框的大小进行估计的方法是:一个人站在摄像头下,取其目标框作为行人的大小,取行人的目标框的长和宽分别作为人的身高和宽度;设行人站在摄像头下的第i位置时行人的面积为Si,身高为hi,宽度为wi;采集多次数据,通过取平均的方法求得当前摄像头高度下行人的面积S,身高h,宽度w。优选的,步骤(4)中,判断是否剔除样本的步骤是:对于正样本集合P下的每一个样本{li,si},通过以下准则确定是否从正样本集合中剔除:若|xl-xr|>γ*w本文档来自技高网
...

【技术保护点】
1.基于深度网络增强的特定场景下行人检测器自动学习方法,其特征在于,包括步骤:(1)在服务器端使用通用的数据集训练出第一神经网络和第二神经网络,第二神经网络用于部署到嵌入式设备中;(2)通过嵌入式设备在进行行人检测的工作过程中,对当前场景的图像进行捕捉,获得新增图像样本,传送到服务器端;(3)在服务器端利用之前训练好的第一神经网络对新增图像样本进行测试,利用第一神经网络的测试得分对样本进行标注;(4)对嵌入式设备当前高度下行人检测框的大小进行估计,计算正样本中检测框和估计的行人检测框的差异值,若差异值超过阈值,则进行剔除,保留剩余样本;(5)服务器端利用上述剩余样本对第二神经网络进行调优;(6)将调优后的第二神经网络模型从服务器端重新部署到嵌入式设备中。

【技术特征摘要】
1.基于深度网络增强的特定场景下行人检测器自动学习方法,其特征在于,包括步骤:(1)在服务器端使用通用的数据集训练出第一神经网络和第二神经网络,第二神经网络用于部署到嵌入式设备中;(2)通过嵌入式设备在进行行人检测的工作过程中,对当前场景的图像进行捕捉,获得新增图像样本,传送到服务器端;(3)在服务器端利用之前训练好的第一神经网络对新增图像样本进行测试,利用第一神经网络的测试得分对样本进行标注;(4)对嵌入式设备当前高度下行人检测框的大小进行估计,计算正样本中检测框和估计的行人检测框的差异值,若差异值超过阈值,则进行剔除,保留剩余样本;(5)服务器端利用上述剩余样本对第二神经网络进行调优;(6)将调优后的第二神经网络模型从服务器端重新部署到嵌入式设备中。2.根据权利要求1所述的基于深度网络增强的特定场景下行人检测器自动学习方法,其特征在于,步骤(1)中,在服务器端使用通用的数据集训练出第一神经网络和第二神经网络的步骤是:利用在除了当前场景外的其他多个场景下人工标注的数据作为通用的数据集,使用基于ResNet-101的FasterR-CNN作为第一神经网络,采用基于AlexNet的SSD作为第二神经网络。3.根据权利要求2所述的基于深度网络增强的特定场景下行人检测器自动学习方法,其特征在于,所述第一神经网络、第二神经网络在训练时采用的预训练网络,其网络参数的获取方法为:在ImageNet上训练得到用于分类的网络参数,将最后的卷积层之后的层去除后,取剩下的卷积层的参数作为当前训练时候的初始化参数。4.根据权利要求1所述的基于深度网络增强的特定场景下行人检测器自动学习方法,其特征在于,步骤(2)中,嵌入式设备使用FTP协议将新增图像样本传送到服务器端。5.根据权利要求1所述的基于深度网络增强的特定场景下行人检测器自动学习方法,其特征在于,通过嵌入式设备在进行行人检测的工作过程中,对采集的图像样本进行筛选,步骤是:设定当前设备检测到的行人数量为Np,若Np≥Tp,Tp为预设定的阈值,则将采集的图像作为新增图像样本...

【专利技术属性】
技术研发人员:郑慧诚何炜雄谢晓华
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1