一种基于两级注意力机制的行人检测方法及系统技术方案

技术编号：21892787 阅读：27 留言：0更新日期：2019-08-17 14:51

本发明专利技术公开了一种基于两级注意力机制的行人检测方法，将原始图像送入RPN模块得到目标候选框；将每一个候选框自上而下分为三个子区域；将子区域经过pool模块的特征分别送入一个第一级注意力模块，得到每一个子区域内相对精准的部位特征；将每一个候选框的部位特征与全局特征堆叠，送入一个第二级注意力模块，进行全局特征与部位特征的自适应加权；将两级注意力模块串联，得到端到端的检测网络模型。本发明专利技术有效去除复杂的背景干扰，适用于现实应用环境中多变的情况，增强检测鲁棒性，降低误检和漏检概率，尤其对于可用信息相对较少的被遮挡行人与冗余噪声干扰严重的小尺度行人，有效提高视频图像中行人目标的检测能力。

A Pedestrian Detection Method and System Based on Two-level Attention Mechanism

全部详细技术资料下载

【技术实现步骤摘要】
一种基于两级注意力机制的行人检测方法及系统
本专利技术涉及的是一种图像中目标检测领域的方法，具体是一种基于两级注意力机制的行人检测方法及系统。
技术介绍
大数据时代的到来，推动着计算机技术的不断更新和发展，行人检测技术作为计算机视觉领域的研究热点在智能视频监控、智能交通等领域表现出了重要的应用价值。现有的行人检测算法，因为尚存如下困难和挑战，检测结果还有待提升：由于拍摄距离原因，图片较大但目标行人尺寸较小，通过深度学习卷积神经网络降缩之后目标区域的特征很少，难以进行有效的检测识别；由于拍摄角度的固定性，行人的身体会出现部分遮挡问题，在检测过程中有用的信息相对减少，从而导致漏检的发生。目前，较为成熟的行人检测算法基本可以分为两类：(1)基于背景建模。该方法主要用于视频中检测运动目标：即将输入的静态图像进行场景分割，利用混合高斯模型(GMM)或运动检测等方法，分割出其前景与背景，再在前景中提取特定运动目标。这类方法需要连续的图像序列来实现建模，不适合于单幅图像中的目标检测。(2)基于统计学习。即将所有已知属于行人目标的图像收集起来形成训练集，基于一个人工设计的算法(如HOG、Harr等)对训练集图像提取特征。提取的特征一般为目标的灰度、纹理、梯度直方图、边缘等信息。继而根据大量的训练样本的特征库来构建行人检测分类器。分类器一般可用SVM，Adaboost及神经网络等模型。综合而言近年来基于统计学习的目标检测算法表现较优，基于统计学习的目标检测算法可以分为传统人工特征目标检测算法以及深度特征机器学习目标检测算法。传统人工特征目标检测算法主要是指其利用人工设计的特...

【技术保护点】
1.一种基于两级注意力机制的行人检测方法，其特征在于，包括：S1，基于Faster RCNN以及FPN网络构造一个端到端行人检测网络，所述检测网络包括基础网络Faster RCNN中的RPN模块、pool模块和分类回归模块，还包括第一级注意力模块和第二级注意力模块，其中第一级注意力模块的输入特征是基于RPN模块产生的目标候选框；S2，利用第一级注意力模块得到精准的部位特征：原始输入图像Image送入RPN模块提取目标候选框B；将每一个目标候选框B自上而下分为三个子区域P1、P2和P3，分别对应直立行人头部、上身以及下身；将每个子区域经过pool模块的特征，各自送入一个对应的第一级注意力模块A1；通过第一级注意力模块的仿射变换功能，提取出三个子区域中精准的部位特征

【技术特征摘要】
1.一种基于两级注意力机制的行人检测方法，其特征在于，包括：S1，基于FasterRCNN以及FPN网络构造一个端到端行人检测网络，所述检测网络包括基础网络FasterRCNN中的RPN模块、pool模块和分类回归模块，还包括第一级注意力模块和第二级注意力模块，其中第一级注意力模块的输入特征是基于RPN模块产生的目标候选框；S2，利用第一级注意力模块得到精准的部位特征：原始输入图像Image送入RPN模块提取目标候选框B；将每一个目标候选框B自上而下分为三个子区域P1、P2和P3，分别对应直立行人头部、上身以及下身；将每个子区域经过pool模块的特征，各自送入一个对应的第一级注意力模块A1；通过第一级注意力模块的仿射变换功能，提取出三个子区域中精准的部位特征和S3，利用第二级注意力模块平衡整体与部位特征：将每个目标候选框B通过第一级注意力模块得到的每一个子区域部位特征和分别与目标候选框B整体特征堆叠，作为第二级注意力模块A2的输入特征；利用第二级注意力模块的自适应加权功能，依据输入特征的不同，自适应地计算得到不同大小的权重o′g、o′h、o′u和o′l，其中o′g、o′h、o′u和o′l分别对应整体、头部、上身以及下身；将加权后的特征o′g·B、和分别送入分类回归模块分类与回归，得到检测结果B0，即为图像中需要检出的行人目标。2.根据权利要求1中所述的基于两级注意力机制的行人检测方法，其特征在于，所述S2中，每一个目标候选框子区域的划分方法包括：确定每一个目标候选框的尺寸为H×W，其中H、W分别为目标候选框的高和宽；每一个目标候选框的左上角点与右下角点的坐标分别为(x1，y1)、(x2，y2)；根据以上表示，得到三个子区域，即：W＝|x2-x1|H＝|y2-y1|P1＝[(x1，y1)，(x2，y1+α·H)]P3＝[(x1，y2-α·H)，(x2，y2)]其中，α表示用于控制目标候选框每一个子区域高度的参数。3.根据权利要求2所述的基于两级注意力机制的行人检测方法，其特征在于，在整体检测过程中，参数α被设定为0.4，表示每一个子区域的高度占整个目标候选框高度的40％。4.根据权利要求1中所述的基于两级注意力机制的行人检测方法，其特征在于，所述S2中，提取子区域精准的部位特征的方法为：将子区域经过pool(RoIPooling)模块的特征P1、P2、P3分别送入第一级注意力模块的仿射变换模块，得到子区域对应的仿射变换矩阵通过仿射变换矩阵，将子区域上每个像素点对应的坐标(x，y)映射到仿射散点图S*上的对应坐标(x*，y*)，即：其中，τ(·)表示空间仿射变换函数，M表示仿射变换矩阵，表示仿射变换矩阵的参数，通过不同数值的组合，实现不同的仿射变换功能；将仿射散点图S*送入单位圆核函数，输出注意力权重图A；将注意力权重图A与相应子区域的特征逐通道相乘，即得该子区域精准的部位特征，具体为：κ(p，q)＝frelu(1-||p-q||2)其中，A(i，j)表示注意力权重图A上坐标为(i，j)的点对应的注意力权重值，p，q分别表示坐标点，frelu(·)表示线性整流函数，κ(·)表示...

【专利技术属性】
技术研发人员：张重阳，罗艳，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人