一种基于级联优化的行人目标检测方法技术

技术编号:24757544 阅读:104 留言:0更新日期:2020-07-04 09:28
本发明专利技术涉及一种基于级联优化的行人检测方法,属于计算机视觉中的行人检测领域。首先利用基于无监督注意力机制的候选区域生成网络产生不同行人候选目标区域,然后利用设计的优化网络从不同特征层上提取候选目标区域,逐层对样本进行优化,最终得到准确的行人目标预测。

A pedestrian target detection method based on cascade optimization

【技术实现步骤摘要】
一种基于级联优化的行人目标检测方法
本专利技术涉及一种基于级联优化的行人目标检测方法,属于计算机视觉中的行人检测领域。
技术介绍
行人检测技术是计算机视觉领域中的一个基础问题,在自动驾驶,自动机器人等,视频监控等领域都有广泛应用。目前行人检测中的主要挑战在于遮挡,尺度,复杂背景,目标变形等。首先,道路中的车辆和行人都较多,因此行人之间的遮挡,行人被建筑物、汽车等遮挡都可能会比较严重,类内遮挡和类间遮挡都可能给检测器带来挑战。其次,由于行人和摄像头的距离不一致,因此呈现在图像中的行人尺度范围可能变化较大,这种尺度问题可能会使检测不准确。另外,存在建筑物,树木等也可能与行人的形态相似,使检测器造成误判。最后,行人本身也可能姿态各异,甚至部分行人可能像素模糊,使检测器无法准确判断。一般的行人检测方法一般都是基于预设框的,可以分为单阶段与双阶段的检测器。单阶段检测指网络直接生成候选样本和对应的置信度,从而对行人目标做出预测。双阶段检测指网络产生候选框之后,再在特征层上提取出相应区域,以做进一步的分类和回归优化。单阶段与双阶段的检测中都会用到一种特征金字塔的结构,即从不同的特征层中检测不同的目标,通常按照尺度分类,较深的特征层认为感受野较大,因此用来检测尺度较大的目标。常用的单阶段检测方法无法对难样本如干扰背景,亦无法对模糊行人进行准确判断,常用的双阶段方法将所有样本都进行再分类,反而会破坏已有的部分检测结果的准确性。目前无相关文献报导。
技术实现思路
本专利技术技术问题为:针对现有技术的,提供一种基于级联优化的行人目标检测方法,充分利用网络各层特征的特点,将行人检测中的遮挡,目标变形,尺度,复杂背景等难点问题统一归类为网络判断不准确的问题,使金字塔特征层网络对难样本进行级联优化检测,最终使行人检测的准确率达到较高水平。本专利技术技术要解决的问题是:克服现有针对行人检测的不足,提供一种基于级联优化的行人目标检测方法,充分利用网络各层特征的优势,将行人检测中的遮挡,目标变形,尺度,复杂背景等难点问题统一归类为网络判断不准确的难样本问题,使网络特征金字塔的每一层对样本进行级联优化,最终达到更加准确的行人检测结果。本专利技术采用的技术方案为一种基于级联分类优化的行人检测方法,充分利用网络各层特征的优势,将行人检测中的遮挡,目标变形,尺度,复杂背景等难点问题统一归类为网络判断不准确的难样本问题,从根本上提高准确率。本专利技术一种基于级联分类优化的行人检测方法,该方法包括有下列步骤:步骤一:基于无监督注意力机制的候选区域生成本专利技术区域生成网络部分的的主体框架为VGG16网络,如图1所示。和初始设计不同,本专利技术增加了一个无监督注意力机制的设计。图像I输入到网络后产生特征图F,本归有在生成候选区域时没有用到特征金字塔结构。VGG16网络生成的特征图再输入到一个子网络以产生其自身权重w,子网络由一卷积层与激活层组成,最后一个卷积层的通道为1,然后在通过一个sigmoid层,以使最终权重w与输入特征F的大小一致,且通道为1。从图1可以看到,权重特征图w在行人目标区域具有较高的响应。输入特征图F的每个通道都和所学的权重w相乘,如下式所示:上式中Fw即为最终的特征图,代表点积。对Fw做分类和回归以后,将产生候选框的集合N表示不同行人候选目标区域的个数,xi,yi,wi,hi,ci分别为某个候选目框的中心点横坐标,纵坐标,宽和高,ci为候选区域的置信度,i代表候选区域的索引值,取值为1到N。步骤二:优化网络的设计在介绍主体的级联优化网络之前,首先介绍本方案优化网络的细节设计。步骤一产生的候选区域由步骤二进行下一步处理。具体结构如图2所示。Ft代表特征金字塔的某一层特征图,t=0表示以原图为基础的优化网络,t=1,2,3分别表示以第三,第四,第五卷积层为基础的优化网络。本专利技术的特征金字塔包括输入原图,VGG16的conv3,conv4,conv5层。首先从特征层Ft中提取出候选区域,然后令其通过全连接层,得到优化的置信度和坐标,分别对应分类与回归操作。注意到优化网络的置信度和候选区域是没有关系的,而优化网络所产生的坐标与输入区域的坐标、真实坐标有关。优化网络所预测的坐标是一种相对坐标,是对输入区域坐标的修正。令(Px,Py,Pw,Ph)表示候选目标区域的中心点横坐标、纵坐标、宽和高,(Gx,Gy,Gw,Gh)表示对应的真实行人区域中心点横坐标、纵坐标、宽和高,则优化网络所预测区域的中心点横坐标、纵坐标、宽和高(tx,ty,tw,th)表示如下:tx=(Gx-Px)/Pwty=(Gy-Py)/Phtw=log(Gw/Pa)th=log(Gh/Ph)当特征层为输入图像时,候选区域可直接在原图上裁剪,当特征层为网络的不同层时,本专利技术用ROIAlign方法,提取对应的特征区域。步骤三:级联优化网络步骤一与步骤二共同构成步骤三的结构。级联优化网络的主体架构如图3所示。其中的区域生成网络指步骤一中介绍的基于无监督注意力机制的候选区域生成结构,优化网络在步骤二中已详细介绍。设步骤一中样本的置信度分别为N为样本总数,到由大到小排列,k为待选取的目标样本个数,k<<N,首先将置信度为的样本挑出,输入到步骤二中以原图为基础的优化网络,得到优化的置信度和坐标,设优化后的样本置信度分别为N′为优化后的样本坐标,N′=N-2k,之后再将置信度为的样本取出,送入以第三卷积层为基础的优化网络,得到进一步的优化样本置信度与坐标,同理,将第三卷积层优化网络置信度最高与最低的k个输出作为第四卷基层优化网络的输入,第四卷积层优化网络的置信度最高与最低的k个输出作为第五卷积层优化网络的输入;此外,对每一层优化网络的样本尺度也有限制,第t卷积层优化网络的样本为尺度限制为(St,St+1),t=0,1,2,3.t=0表示以原图为基础的优化网络,t=1,2,3分别表示以第三,第四,第五卷积层为基础的优化网络,St和St+1的值设置根据目标数据的范围自行确定,代表第t层优化网络的尺度范围。经级联优化操作后,充分利用了各层特征的优势,最终使网络可以更加准确的确定候选区域的类别。本专利技术与现有技术相比的优点在于:(1)区域生成网络中增加了注意力机制,和现有技术相比,增加了目标区域的特征响应,抑制了背景噪声,提高了区域候选生成样本的准确率。(2)设计了不同的优化网络,和现有技术相比,综合考虑尺度和置信度两个方面,使基于不同网络层的优化网络处理不同类型的目标,充分利用网络各层特征的特点和优势。(3)在区域生成网络和优化网络的基础上,设计了优化网络对候选区域再分类与再回归的方案,不同的优化网络通过不同类型的目标,最终使所有的目标都能被准确的检测。附图说明图1为本专利技术中区域生成网络主体架构图;图2为本专利技术中的优化网络的设计图;图3为本专利技术方法的实现流程图。具体实施方式如本文档来自技高网...

【技术保护点】
1.一种基于级联优化的行人目标检测方法,其特征在于,包括以下步骤:/n步骤一:在一般区域生成网络的基础上,根据特征对于目标区域的响应特点,在待处理网络特征的基础上增加一个子网络,得到不同行人候选目标区域,每个候选目标区域均包含区域尺度和置信度;/n步骤二:根据步骤一得到的不同行人候选目标区域尺度范围及置信度分布情况,进行不同级别优化网络的设计,分别得到基于输入图像和网络不同层级对应的优化网络结构,其输入为不同的候选区域,输出为优化后候选区域的置信度和坐标值;/n步骤三:使不同尺度和置信度的候选区域通过不同的优化子网络,采用不同的优化网络对步骤一中不同行人候选目标区域分别进行修正,最终得到准确的行人目标检测结果。/n

【技术特征摘要】
1.一种基于级联优化的行人目标检测方法,其特征在于,包括以下步骤:
步骤一:在一般区域生成网络的基础上,根据特征对于目标区域的响应特点,在待处理网络特征的基础上增加一个子网络,得到不同行人候选目标区域,每个候选目标区域均包含区域尺度和置信度;
步骤二:根据步骤一得到的不同行人候选目标区域尺度范围及置信度分布情况,进行不同级别优化网络的设计,分别得到基于输入图像和网络不同层级对应的优化网络结构,其输入为不同的候选区域,输出为优化后候选区域的置信度和坐标值;
步骤三:使不同尺度和置信度的候选区域通过不同的优化子网络,采用不同的优化网络对步骤一中不同行人候选目标区域分别进行修正,最终得到准确的行人目标检测结果。


2.根据权利要求1所述的基于级联优化的行人目标检测方法,其特征在于:所述步骤一具体实现如下:
设I为输入图像,经神经网络逐层处理后,最终得到特征F:



上式中代表神经网络的作用函数;
设图像I大小为W×H,W和H分别代表图像的宽和高,网络截至特征图F的总步长为S,则特征F的大小为记为Ws×Hs×C,其中C为通道的数目,特征图F和输入图像I是尺度放缩对应的关系;令F自主学习一个特征增强的监督特征f,f大小为Ws×Hs×1,Ws和H3分别代表监督特征的宽和高,其特点是背景目标对应的区域响应较低,即经Sigmoid函数处理后对应的值小于0.3,前景目标区域对应的响应较高,即经Sigmoid函数处理后其值均大于0.7,然后令f和初始特征F的每个通道都相乘,得到区域增强的特征F′,获得f的具体操作为令F通过3个卷积加ReLu激活函数操作,卷积层的步长均为1,中间设置不同的通道数量,最后一个卷积层的通道设置为1,再通过sigmoid层使特征范围约束在0到1之间,即得到监督特征f,最后对区域增强后的特征F分别作分类和回归操作,得到不同行人候选目标区域。


3.根据权利要求1所述的基于级联优化的行人目标检测方法,其特征在于:所述步骤二:优化网络的设计具体实现如下:
优化网络的输入为不同行人候选目标区域,输出为优化后候选区域的置信度和坐标值,设某一输入候选区域大小为Wt×Ht,t=0,1,2,3,t=0表示该区域从原图中提取出来,t=1,2,3分别表示该区域从VGG16网络的第三,第四,第五卷积层中...

【专利技术属性】
技术研发人员:冷彪郝杰
申请(专利权)人:深圳北航新兴产业技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1