当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于多任务学习的行人检测方法技术

技术编号:20917952 阅读:35 留言:0更新日期:2019-04-20 09:59
本发明专利技术公开了一种基于多任务学习的卷积神经网络行人检测方法,包括:将行人位置所在的区域划分为m*n个子区域,按照预设规则将子区域进行组合,获取多个组合区域,将每个组合区域定义为行人可见模式;基于高速区域卷积网络的第一阶段网络结构,采用同一个特征提取网络提供输入图像的深度特征,并联多个检测网络,每一个检测网络对应一种行人可见模式的检测任务;统计行人检测场景视频中各种行人可见模式出现的比例、与每一个任务的损失函数加权平均,得到总的损失函数;选取前五种行人可见模式生成训练样本,分别训练对应的区域推荐子网络,进而实现对行人的检测。本发明专利技术采用多任务学习的方式,在不增加实际使用时深度网络复杂度的情况下,提高深度网络对遮挡行人的检测能力。

A Pedestrian Detection Method Based on Multitask Learning

The invention discloses a pedestrian detection method based on convolutional neural network based on Multi-task learning, which includes: dividing the pedestrian location area into m*n sub-regions, combining sub-regions according to preset rules, obtaining multiple composite regions, defining each composite region as a pedestrian visible pattern; adopting the same network structure based on the first stage of high-speed convolutional network; Each detection network corresponds to a pedestrian visible mode detection task; the proportion of various pedestrian visible modes in pedestrian detection scene video is counted, and the weighted average of loss function with each task is obtained to obtain the total loss function; the first five pedestrian visible modes generation training is selected. Samples are trained for the corresponding regional recommendation subnetworks, and pedestrian detection is realized. The invention adopts a multi-task learning method to improve the detection ability of the depth network for occlusion pedestrians without increasing the complexity of the depth network in actual use.

【技术实现步骤摘要】
一种基于多任务学习的行人检测方法
本专利技术涉及图像处理、计算机视觉
,尤其涉及一种基于多任务学习的卷积神经网络行人检测方法。
技术介绍
随着近些年辅助驾驶、无人驾驶等技术兴起,行人检测成为一大研究热点。行人检测的目的是在给出的图像或视频中标出行人个体的位置。由于视频可以划分为多帧的图像,目前业界的研究重点放在图像的行人检测。图像检测技术有数十年的发展,其整体框架主要包括为:待检测区域选择、特征提取、特征分类三个部分。在深度学习兴起之前,具有代表性的行人检测方法包括:完全通道特征方法(IntegrateChannelFeatures,ICF)和可变部件模型方法(DeformablePartsModel,DPM)。ICF使用多通道特征和分类器进行行人识别。由于ICF方法以整个个体作为分类目标,尽管在遮挡较弱的情况下行人检测效果优异,但是随着遮挡程度的上升,检测效果下降明显。DPM方法采用多部件辅助的联合检测方式,在HOG(方向梯度直方图)特征金字塔上进行行人检测,巧妙地解决了多尺度问题,并且能够在一定程度上降低遮挡对检测效果的影响。随着深度学习理论研究的不断深入,深度特征被用到检测任务中,使得检测结果的准确度得到了巨大的提升。采用深度学习的物体检测方法中影响最为深远的是区域卷积神经网络(RegionswithConvolutionalNeuralNetwork,RCNN)方法及其后续发展的快速区域卷积神经网络(Fast-RCNN)方法和高速区域卷积神经网络(Faster-RCNN)方法。该类方法采用两阶段的检测框架,首先采用区域推荐方法产生推荐区域,然后使用分类器对推荐区域进行分类以实现检测。然而,由于个体遮挡和多尺度问题,该系列方法在行人检测中效果还有待提高。Tian等人提出了Deep-part(深度部件)模型,其在ICF框架下采用深度特征训练多种遮挡情况的行人检测器,在正常场景和拥挤场景下均取得了较好的检测效果。但是,多检测器的结构较为复杂,方法无法端到端的实现并且耗费的计算资源较大。
技术实现思路
本专利技术提供了一种基于多任务学习的卷积神经网络行人检测方法,本专利技术针对现有检测方法检测遮挡行人能力不足的问题,采用多任务学习的方式,在不增加实际使用时深度网络复杂度的情况下,提高深度网络对遮挡行人的检测能力,详见下文描述:一种基于多任务学习的卷积神经网络行人检测方法,所述方法包括以下步骤:将行人位置所在的区域划分为m*n个子区域,按照预设规则将子区域进行组合,获取多个组合区域,将每个组合区域定义为行人可见模式;基于高速区域卷积网络的第一阶段网络结构,采用同一个特征提取网络提供输入图像的深度特征,并联多个检测网络,每一个检测网络对应一种行人可见模式的检测任务;统计行人检测场景视频中各种行人可见模式出现的比例、与每一个任务的损失函数加权平均,得到总的损失函数;选取前五种行人可见模式生成训练样本,分别训练对应的区域推荐子网络,进而实现对行人的检测。进一步地,所述预设规则为:每个子区域仅能与相邻的子区域进行组合,组合后的区域为矩形。其中,所述总的损失函数为:其中,N为所有的统计到的可见模式,pi为第i种行人可见模式出现的比例,为该可见模式检测任务在训练时得到的损失。具体实现时,所述前五种行人可见模式具体为:全身、1/2上半身、5/6上身、4/6上身和1/3上身。其中,所述高速区域卷积网络的第一阶段网络结构具体为:前一部分是基于VGG-16的特征提取网络,对应特征提取网络;后一部分为一个包含一个3*3的卷积层和两个1*1的卷积层组成的区域推荐子网络,对应检测网络。本专利技术提供的技术方案的有益效果是:1、本专利技术能够有效改善一般神经网络行人检测方法对遮挡样本检测效果不佳的情况,有效提高方法检测遮挡行人的能力,提升方法的检测准确度;2、由于多任务学习只在检测模型的训练阶段进行,该方法并不会增加方法实际使用时的计算资源开销。附图说明图1为一种基于多任务学习的卷积神经网络行人检测方法的流程图;图2为几种行人可见模式示意图;图3为Faster-RCNN第一阶段网络结构示意图;图4训练样本生成示意图;图5为本专利技术检测准确度提升效果的量化柱状图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。多任务学习是机器学习中的一种模型训练方式,被广泛用于多任务模型训练和迁移学习任务中。基于深度神经网络的多任务学习指的是在同一个主干神经网络的基础上,通过不同的分支网络,实现不同的任务,构建多任务模型。例如:Mask-RCNN(掩膜区域卷积神经网络)物体检测分割方法就是一个标准的多任务模型,同时实现了物体的检测和分割两个相关联的任务。多任务模型在训练时采用多个损失函数同时对网络进行优化,不会增加主干网络的复杂度。在实际检测时,可以针对需求的任务删除其余任务的网络分支结构,实现整个网络的精简。多任务学习能够有效不同任务之间的相关性,使不同任务之间相互促进,提高整体效果。实施例1一种基于多任务学习的卷积神经网络行人检测方法,参见图1,该方法包括以下步骤:101:将行人位置所在的区域划分为m*n个子区域,按照预设规则将子区域进行组合,获取多个组合区域,将每个组合区域定义为行人可见模式;其中,预设规则为:每个子区域仅能与相邻的子区域进行组合,组合后的区域为矩形。102:基于高速区域卷积网络的第一阶段网络结构,采用同一个特征提取网络提供输入图像的深度特征,并联多个检测网络,每一个检测网络对应一种行人可见模式的检测任务;其中,高速区域卷积网络的第一阶段网络结构具体为:前一部分是基于VGG-16的特征提取网络,对应特征提取网络;后一部分为一个包含一个3*3的卷积层和两个1*1的卷积层组成的区域推荐子网络,对应检测网络。103:统计行人检测场景视频中各种行人可见模式出现的比例、与每一个任务的损失函数加权平均,得到总的损失函数;选取前五种行人可见模式生成训练样本,分别训练对应的区域推荐子网络,进而实现对行人的检测。进一步地,前五种行人可见模式具体为:全身、1/2上半身、5/6上身、4/6上身和1/3上身。综上所述,本专利技术实施例针对现有检测方法检测遮挡行人能力不足的问题,采用多任务学习的方式,在不增加实际使用时深度网络复杂度的情况下,提高深度网络对遮挡行人的检测能力。实施例2下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍,本专利技术实施例在现有的深度检测方法的基础上进行优化,具体实现步骤分为四个阶段:一、行人可见模式构建对于一张图片给出的行人位置标注s,它的区域为(x,y,h,w),其中,x,y为区域的左上角坐标,h,w为区域的高度和宽度。首先将该区域划分为m*n个子区域。参见图2,将这些子区域进行组合,要求只能和相邻的子区域组合,并且组合后的区域必须为矩形。这样根据不同的组合方式,可以得到多个组合区域。每一个确定的组合区域就是一种固定的行人可见模式,编号为i∈N,N是行人可见模式的总数。例如:将该区域划分为6*3个子区域,根据不同的组合方式,可以得到108种符合要求的组合区域。二、多任务检测网络设计针对不同的神经网络检测方法,多任务网络的具体实现方法存在差异。将神经网络检测方法的网络结构分为特征本文档来自技高网
...

【技术保护点】
1.一种基于多任务学习的卷积神经网络行人检测方法,其特征在于,所述方法包括以下步骤:将行人位置所在的区域划分为m*n个子区域,按照预设规则将子区域进行组合,获取多个组合区域,将每个组合区域定义为行人可见模式;基于高速区域卷积网络的第一阶段网络结构,采用同一个特征提取网络提供输入图像的深度特征,并联多个检测网络,每一个检测网络对应一种行人可见模式的检测任务;统计行人检测场景视频中各种行人可见模式出现的比例、与每一个任务的损失函数加权平均,得到总的损失函数;选取前五种行人可见模式生成训练样本,分别训练对应的区域推荐子网络,进而实现对行人的检测。

【技术特征摘要】
1.一种基于多任务学习的卷积神经网络行人检测方法,其特征在于,所述方法包括以下步骤:将行人位置所在的区域划分为m*n个子区域,按照预设规则将子区域进行组合,获取多个组合区域,将每个组合区域定义为行人可见模式;基于高速区域卷积网络的第一阶段网络结构,采用同一个特征提取网络提供输入图像的深度特征,并联多个检测网络,每一个检测网络对应一种行人可见模式的检测任务;统计行人检测场景视频中各种行人可见模式出现的比例、与每一个任务的损失函数加权平均,得到总的损失函数;选取前五种行人可见模式生成训练样本,分别训练对应的区域推荐子网络,进而实现对行人的检测。2.根据权利要求1所述的一种基于多任务学习的卷积神经网络行人检测方法,其特征在于,所述预设规则为:每个子区域仅能与相邻的子区域进行组合...

【专利技术属性】
技术研发人员:雷建军陈越侯春萍彭勃郭亭佚牛力杰
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1