一种基于两级注意力机制的行人检测方法及系统技术方案

技术编号:21892787 阅读:27 留言:0更新日期:2019-08-17 14:51
本发明专利技术公开了一种基于两级注意力机制的行人检测方法,将原始图像送入RPN模块得到目标候选框;将每一个候选框自上而下分为三个子区域;将子区域经过pool模块的特征分别送入一个第一级注意力模块,得到每一个子区域内相对精准的部位特征;将每一个候选框的部位特征与全局特征堆叠,送入一个第二级注意力模块,进行全局特征与部位特征的自适应加权;将两级注意力模块串联,得到端到端的检测网络模型。本发明专利技术有效去除复杂的背景干扰,适用于现实应用环境中多变的情况,增强检测鲁棒性,降低误检和漏检概率,尤其对于可用信息相对较少的被遮挡行人与冗余噪声干扰严重的小尺度行人,有效提高视频图像中行人目标的检测能力。

A Pedestrian Detection Method and System Based on Two-level Attention Mechanism

【技术实现步骤摘要】
一种基于两级注意力机制的行人检测方法及系统
本专利技术涉及的是一种图像中目标检测领域的方法,具体是一种基于两级注意力机制的行人检测方法及系统。
技术介绍
大数据时代的到来,推动着计算机技术的不断更新和发展,行人检测技术作为计算机视觉领域的研究热点在智能视频监控、智能交通等领域表现出了重要的应用价值。现有的行人检测算法,因为尚存如下困难和挑战,检测结果还有待提升:由于拍摄距离原因,图片较大但目标行人尺寸较小,通过深度学习卷积神经网络降缩之后目标区域的特征很少,难以进行有效的检测识别;由于拍摄角度的固定性,行人的身体会出现部分遮挡问题,在检测过程中有用的信息相对减少,从而导致漏检的发生。目前,较为成熟的行人检测算法基本可以分为两类:(1)基于背景建模。该方法主要用于视频中检测运动目标:即将输入的静态图像进行场景分割,利用混合高斯模型(GMM)或运动检测等方法,分割出其前景与背景,再在前景中提取特定运动目标。这类方法需要连续的图像序列来实现建模,不适合于单幅图像中的目标检测。(2)基于统计学习。即将所有已知属于行人目标的图像收集起来形成训练集,基于一个人工设计的算法(如HOG、Harr等)对训练集图像提取特征。提取的特征一般为目标的灰度、纹理、梯度直方图、边缘等信息。继而根据大量的训练样本的特征库来构建行人检测分类器。分类器一般可用SVM,Adaboost及神经网络等模型。综合而言近年来基于统计学习的目标检测算法表现较优,基于统计学习的目标检测算法可以分为传统人工特征目标检测算法以及深度特征机器学习目标检测算法。传统人工特征目标检测算法主要是指其利用人工设计的特征,来进行目标检测的建模。近年来表现优秀的人工设计的特征算法主要包括:2010年PedroF.Felzenszwalb等提出的DPM(DeformablePartModel)算法(Objectdetectionwithdiscriminativelytrainedpart-basedmodels)。PiotrDollár等2009年提出的ICF(IntegralChannelFeatures)、2014年提出的ACF算法(FastFeaturePyramidsforObjectDetection)。2014年ShanshanZhang等提出的InformedHarr方法(InformedHaar-likeFeaturesImprovePedestrianDetection),致力于提取更加具有表征信息的Harr特征来进行训练。这些人工设计的特征虽然取得了一定的效果,但因为人工特征表征能力不足,仍存在检测精度不高问题。由于深度卷积神经网络模型所具有的更强大的特征学习与表达能力,在行人检测方面得到越来越广泛和成功的应用。基础的行人检测算子是R-CNN(Region-ConvolutionalNeuralNetwork)模型。2014年,Girshick等人提出RCNN用于通用目标的检测,之后又是提出了FastRCNN和FasterRCNN,提高了基于深度学习目标检测算法的精度和速度.2016年提出的Yolo和SSD等算法,则通过Anchor等思想实现单一阶段的快速目标检测。这些基于深度学习技术的目标检测,大都是使用从整个候选框提取的特征进行分类回归,仍然存在深度特征提取不充分的问题,尤其是针对行人中的遮挡目标以及小尺寸目标,一方面由于遮挡目标身体部分部位的不可见性,视觉特征有限;另一方面是因为深度卷积神经网络层层的尺寸降缩,特征尺寸更小;这两方面的因素导致行人目标的检测精度不高、漏检率需要进一步降低。2018年,ShanshanZhang等提出的partattention方法(OccludedPedestrianDetectionThroughGuidedAttentioninCNNs),致力于提取更加具有表征信息的身体部位特征来进行训练。但是仍然存在一些问题,一方面是这种方法依然使用的是整个目标候选框的特征,没有充分提取身体部位特征,此外,过于注重身体部位特征或过于注重整个候选框的特征,导致网络在全局与局部之间的失衡,所以检测器没有很好的泛化性能;另一方面,利用一个部位检测器来提取身体部位特征,会引入额外标注的身体部位信息,造成成本的增加。目前没有发现同本专利技术类似技术的说明或报道,也尚未收集到国内外类似的资料。
技术实现思路
针对现有技术中基于深度模型的行人检测方法存在的上述不足,本专利技术的目的是提出一种基于两级注意力机制的行人检测方法及系统。根据本专利技术的一个方面,提供了一种基于两级注意力机制的行人检测方法,包括:S1,基于FasterRCNN以及FPN(FeaturePyramidNetwork)网络构造一个端到端行人检测网络,所述检测网络包括基础网络FasterRCNN中的RPN模块、pool模块和分类回归模块,还包括第一级注意力模块和第二级注意力模块,其中第一级注意力模块的输入特征是基于RPN(RegionProposalNetwork)模块产生的目标候选框;S2,利用第一级注意力模块得到精准的部位特征:原始输入图像Image送入RPN模块提取目标候选框;将每一个目标候选框自上而下分为三个子区域P1,P2,P3,分别对应直立行人头部,上身以及下身;将每个子区域经过pool(RoIPooling)模块的特征,各自送入一个对应的第一级注意力模块A1;通过该第一级注意力模块的仿射变换功能,可以提取出该子区域中相对精准的部位特征和S3,利用第二级注意力模块平衡整体与部位特征:将每个目标候选框B通过第一级注意力模块得到的每一个子区域内的部位特征与目标候选框B整体特征堆叠,作为第二级注意力模块的输入特征;利用第二级注意力模块的自适应加权功能,依据输入特征自适应挑选不同成分的特征,得到各成分对应的加权值o′g,o′h,o′u,o′l(分别对应整体,头部,上身,下身);将加权后的特征o′g·B,分别送入分类回归模块进行分类与回归,实现检测定位,得到检测结果B0,即为图像中需要检出的行人目标。优选地,所述S2中,对每一个目标候选框子区域的划分方法包括:首先确定每一个目标候选框的左上角与右下角的坐标(x1,y1),(x2,y2)以及每一个目标候选框的尺寸H×W,其中H,W分别为该候选框的高和宽,再从每一个目标候选框中划分出三个子区域,即:对于行人头部对应的子区域,用坐标可以表示为:H=|y2-y1|W=|x2-x1|P1=[(x1,y1),(x2,y2+α·H)]对于行人上身对应的子区域,用坐标可以表示为:对于行人下身对应的子区域,用坐标可以表示为:P3=[(x1,y1-α·H),(x2,y2)];其中,α表示用于控制每一个子区域高度的参数。更为优选地,参数α用来控制每一个子区域的高度;在整体检测流程中,参数α被设定为0.4,表示每一个子区域的高度占整个目标候选框高度的40%。优选地,所述S2中,提取精准的部位特征的方法为:将子区域经过pool(RoIPooling)模块的特征P1,P2,P3分别送入第一级注意力模块的仿射变换模块,得到该子区域对应的仿射变换矩阵通过该仿射变换矩阵,将子区域上每个像素点对应的坐标(x,y)映射到仿射散点图S*上的对应坐标(x*,y本文档来自技高网
...

【技术保护点】
1.一种基于两级注意力机制的行人检测方法,其特征在于,包括:S1,基于Faster RCNN以及FPN网络构造一个端到端行人检测网络,所述检测网络包括基础网络Faster RCNN中的RPN模块、pool模块和分类回归模块,还包括第一级注意力模块和第二级注意力模块,其中第一级注意力模块的输入特征是基于RPN模块产生的目标候选框;S2,利用第一级注意力模块得到精准的部位特征:原始输入图像Image送入RPN模块提取目标候选框B;将每一个目标候选框B自上而下分为三个子区域P1、P2和P3,分别对应直立行人头部、上身以及下身;将每个子区域经过pool模块的特征,各自送入一个对应的第一级注意力模块A1;通过第一级注意力模块的仿射变换功能,提取出三个子区域中精准的部位特征

【技术特征摘要】
1.一种基于两级注意力机制的行人检测方法,其特征在于,包括:S1,基于FasterRCNN以及FPN网络构造一个端到端行人检测网络,所述检测网络包括基础网络FasterRCNN中的RPN模块、pool模块和分类回归模块,还包括第一级注意力模块和第二级注意力模块,其中第一级注意力模块的输入特征是基于RPN模块产生的目标候选框;S2,利用第一级注意力模块得到精准的部位特征:原始输入图像Image送入RPN模块提取目标候选框B;将每一个目标候选框B自上而下分为三个子区域P1、P2和P3,分别对应直立行人头部、上身以及下身;将每个子区域经过pool模块的特征,各自送入一个对应的第一级注意力模块A1;通过第一级注意力模块的仿射变换功能,提取出三个子区域中精准的部位特征和S3,利用第二级注意力模块平衡整体与部位特征:将每个目标候选框B通过第一级注意力模块得到的每一个子区域部位特征和分别与目标候选框B整体特征堆叠,作为第二级注意力模块A2的输入特征;利用第二级注意力模块的自适应加权功能,依据输入特征的不同,自适应地计算得到不同大小的权重o′g、o′h、o′u和o′l,其中o′g、o′h、o′u和o′l分别对应整体、头部、上身以及下身;将加权后的特征o′g·B、和分别送入分类回归模块分类与回归,得到检测结果B0,即为图像中需要检出的行人目标。2.根据权利要求1中所述的基于两级注意力机制的行人检测方法,其特征在于,所述S2中,每一个目标候选框子区域的划分方法包括:确定每一个目标候选框的尺寸为H×W,其中H、W分别为目标候选框的高和宽;每一个目标候选框的左上角点与右下角点的坐标分别为(x1,y1)、(x2,y2);根据以上表示,得到三个子区域,即:W=|x2-x1|H=|y2-y1|P1=[(x1,y1),(x2,y1+α·H)]P3=[(x1,y2-α·H),(x2,y2)]其中,α表示用于控制目标候选框每一个子区域高度的参数。3.根据权利要求2所述的基于两级注意力机制的行人检测方法,其特征在于,在整体检测过程中,参数α被设定为0.4,表示每一个子区域的高度占整个目标候选框高度的40%。4.根据权利要求1中所述的基于两级注意力机制的行人检测方法,其特征在于,所述S2中,提取子区域精准的部位特征的方法为:将子区域经过pool(RoIPooling)模块的特征P1、P2、P3分别送入第一级注意力模块的仿射变换模块,得到子区域对应的仿射变换矩阵通过仿射变换矩阵,将子区域上每个像素点对应的坐标(x,y)映射到仿射散点图S*上的对应坐标(x*,y*),即:其中,τ(·)表示空间仿射变换函数,M表示仿射变换矩阵,表示仿射变换矩阵的参数,通过不同数值的组合,实现不同的仿射变换功能;将仿射散点图S*送入单位圆核函数,输出注意力权重图A;将注意力权重图A与相应子区域的特征逐通道相乘,即得该子区域精准的部位特征,具体为:κ(p,q)=frelu(1-||p-q||2)其中,A(i,j)表示注意力权重图A上坐标为(i,j)的点对应的注意力权重值,p,q分别表示坐标点,frelu(·)表示线性整流函数,κ(·)表示...

【专利技术属性】
技术研发人员:张重阳罗艳
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1