基于中轴线的无锚点车载行人检测方法技术

技术编号:29836865 阅读:20 留言:0更新日期:2021-08-27 14:26
本发明专利技术公开了基于中轴线的无锚点车载行人检测方法。所述方法包括以下步骤:利用ResNet‑50网络提取车载图像特征并实施多次上采样和横向连接操作,构建特征金字塔;监督定位网络对特征金字塔每一层依次采样,获取特征采样点集合;对特征采样点集合进行分类,获得行人特征,根据行人中轴线的表达式由行人特征采样点的位置初步定位行人中轴线;设计可变形卷积,使其初始采样范围比例与行人宽高比例对齐,并调整行人特征采样点位置,获得校正后的行人特征,再由校正后的行人特征采样点位置精准定位行人中轴线;将精准行人中轴线转换至行人外接矩形,定位车载图像中的行人。本发明专利技术计算开销较小,车载行人检测鲁棒性较强。

【技术实现步骤摘要】
基于中轴线的无锚点车载行人检测方法
本专利技术涉及计算机视觉的行人检测领域,具体涉及一种基于中轴线的无锚点车载行人检测方法。
技术介绍
行人检测是计算机视觉研究领域的热门研究话题,是人体识别、自动驾驶、动作识别等应用的必要前提和关键组件,因此成为了业界的迫切需求。目前绝大多数行人检测器采用锚点框架,首先对输入图像铺设一系列尺度、长宽比例的锚点框作为粗略的目标假设,然后不断调整锚点框的位置和尺度,得到最终预测结果。但是锚点框架存在两方面不足:(1)与锚点框相关的超参数调优困难,不同超参数组合显著影响检测器精度;(2)车载视角行人分布不均匀,密集铺设锚点框引发严重冗余,计算开销大。因此,在时间要求和实时计算资源紧张情况下,采用无锚点框架是更好的选择,能够简化网络学习且计算开销较小。在基准检测框架的选择上,现有文献(WangX,XiaoT,JiangY,etal.Repulsionloss:Detectingpedestriansinacrowd[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2018:7774-7783.)中所提RepPoints为通用目标检测框架,其核心思路是为每个目标学习一组特征采样点,再根据采样点位置估计目标外接矩形的位置和尺度。然而,车载视角下道路场景行人间或行人与其他物体间遮挡频发,部分行人分辨率较低,采用RepPoints方法难以精确地定位特征采样点,检测精度较低。因此,如何简洁、精确地定义行人位置和尺度是行人目标表示方法和网络学习目标设计的关键。此外,RepPoints方法中采用可变形卷积在每个目标的规则网格采样位置增加一项二维的偏移量,使卷积核感受域具有自适应性,用于行人检测任务中有利于建模行人运动导致的形变,可用于对行人特征采样点位置进行校正,该可变形卷积初始化形状为正方形,因而初始采样范围也为正方形。然而,在车载视角下,行人目标大多接近“瘦高”的矩形,与可变形卷积初始采样范围宽高比例不匹配,难以使得所有行人特征点都能在网络训练的同一次反向传播中得到合适的校正。因此,对可变形卷积初始化方式进行适当调整,是提升特征采样准确度的关键。
技术实现思路
本专利技术的目的在于克服现有技术的缺点,提出基于中轴线的无锚点车载行人检测方法,包括利用ResNet-50提取车载图像特征并构建特征金字塔;设计行人中轴线及中轴线回归损失函数,监督网络采样特征金字塔,获取特征采样点集合;分类特征采样点集合,获得行人特征,初步定位行人中轴线;设计可变形卷积调整行人特征点位置,并精准定位行人中轴线;设计行人中轴线至行人外接矩形的转换算法,定位车载图像中的行人。本方法基于无锚点深度学习算法,计算开销较小,车载行人检测鲁棒性较强。。本专利技术的目的至少通过如下技术方案之一实现。基于中轴线的无锚点车载行人检测方法,包括以下步骤:S1、利用ResNet-50网络提取车载图像特征,对ResNet-50网络输出的特征图实施多次上采样和横向连接操作,构建特征金字塔;S2、设计行人中轴线及中轴线回归损失函数,监督定位网络对特征金字塔每一层依次采样,以各层特征图中每个像素点为中心位置学习特征采样点,获取特征采样点集合;S3、对特征采样点集合进行分类,获得行人特征,根据步骤S2中行人中轴线的表达式由行人特征采样点的位置初步定位行人中轴线;S4、设计可变形卷积,使其初始采样范围比例与行人宽高比例对齐,并调整步骤S3中行人特征采样点位置,获得校正后的行人特征,再依据步骤S2中行人中轴线表达式由校正后的行人特征采样点位置精准定位行人中轴线;S5、设计行人中轴线至行人外接矩形转换算法,将步骤S4中所得精准行人中轴线转换至行人外接矩形,定位车载图像中的行人。进一步地,步骤S1中,ResNet-50网络包括第一阶段C1至第五阶段C5,其中第二阶段C2至第五阶段C5均由指定数量相似的残差块串联而成,同一阶段内各残差块输出的特征图的分辨率相同,每个残差块由标准卷积块(ConvBlock)和识别块(IdentityBlock)组成;标准卷积块的输入和输出维度不同,其作用是改变特征向量的维度;识别块的输入和输出维度相同,因此可以实现串联结构;ResNet-50网络的核心思想是通过重复叠加残差块以加深网络深度,使得网络能够应对更加复杂的学习任务;ResNet-50网络中各相邻阶段间存在二倍的下采样关系,每次下采样后特征图尺度在长宽维度上均缩小为前一阶段的二分之一;最终提取的车载图像特征的集合为第二阶段C2至第五阶段C5四个阶段最后输出的特征图组成的集合。进一步地,步骤S1中,所述上采样操作为两倍上采样操作,是指通过最邻近插值法将特征图的长度和宽度均扩展至原始尺寸的两倍;将ResNet-50网络的第五阶段C5输出的特征图通过1×1卷积操作后得到的特征图记为第五特征图M5,对第五特征图M5自顶向下实施三次两倍的上采样操作得到三张特征图,分别与ResNet-50网络第四阶段C4、第三阶段C3和第二阶段C2输出的特征图的分辨率保持一致;所述横向连接操作指将三次两倍上采样操作所得特征图分别与ResNet-50中第四阶段C4、第三阶段C3和第二阶段C2输出的特征图经1×1卷积操作统一通道数后进行元素相加,分别得到第四特征图M4、第三特征图M3和第二特征图M2。进一步地,步骤S1中,所述特征金字塔共有四个层级,构建过程为:对第二特征图M2、第三特征图M3第四特征图M4和第五特征图M5分别进行3×3卷积计算,分别得到包括第一层级P2至第四层级P5的四层特征金字塔。进一步地,步骤S2中,所述定位网络包括三个三个堆叠的标准3×3缓冲卷积层、一个3×3的标准卷积层和一个1×1卷积层;三个堆叠的标准3×3缓冲卷积层的输出维度都是256,后接一个输出维度为256的3×3的标准卷积层和一个1×1卷积层,卷积层的输出维度为2n,其中n为一组特征采样点的个数;定位网络以特征金字塔的第一层级P2至第四层级P5的特征图为输入,分别进行采样,输出的特征图中每个像素点位置包括2n维的特征向量,表示以该位置为初始化中心点的偏移量;接下来定位网络通过若干卷积层获取特征采样点集合;特征采样点集合中每个元素为一组特征采样点,记为其中(xk,yk)为特征采样点组中第k个点的坐标,一组共包括n个特征采样点。进一步地,步骤S2中,假设l表示行人的中轴线,则其具体表达式如下:l=(xcenter,ytop,ybottom);其中,以输入的车载图像的左上角为坐标系原点,xcenter表示行人中轴线的几何中心点在x轴方向上的坐标值,ytop和ybottom分别表示行人中轴线的上顶点和下顶点在y轴方向上的坐标值;采用中轴线回归损失函数监督定位网络采样特征金字塔,定位网络的训练过程具体如下:S2.1、对边界框形式的行人原始标注作出转换,获取中轴线标注;假设G=(xtl,本文档来自技高网
...

【技术保护点】
1.基于中轴线的无锚点车载行人检测方法,其特征在于,包括以下步骤:/nS1、利用ResNet-50网络提取车载图像特征,对ResNet-50网络输出的特征图实施多次上采样和横向连接操作,构建特征金字塔;/nS2、设计行人中轴线及中轴线回归损失函数,监督定位网络对特征金字塔每一层依次采样,以各层特征图中每个像素点为中心位置学习特征采样点,获取特征采样点集合;/nS3、对特征采样点集合进行分类,获得行人特征,根据步骤S2中行人中轴线的表达式由行人特征采样点的位置初步定位行人中轴线;/nS4、设计可变形卷积,使其初始采样范围比例与行人宽高比例对齐,并调整步骤S3中行人特征采样点位置,获得校正后的行人特征,再依据步骤S2中行人中轴线表达式由校正后的行人特征采样点位置精准定位行人中轴线;/nS5、设计行人中轴线至行人外接矩形转换算法,将步骤S4中所得精准行人中轴线转换至行人外接矩形,定位车载图像中的行人。/n

【技术特征摘要】
1.基于中轴线的无锚点车载行人检测方法,其特征在于,包括以下步骤:
S1、利用ResNet-50网络提取车载图像特征,对ResNet-50网络输出的特征图实施多次上采样和横向连接操作,构建特征金字塔;
S2、设计行人中轴线及中轴线回归损失函数,监督定位网络对特征金字塔每一层依次采样,以各层特征图中每个像素点为中心位置学习特征采样点,获取特征采样点集合;
S3、对特征采样点集合进行分类,获得行人特征,根据步骤S2中行人中轴线的表达式由行人特征采样点的位置初步定位行人中轴线;
S4、设计可变形卷积,使其初始采样范围比例与行人宽高比例对齐,并调整步骤S3中行人特征采样点位置,获得校正后的行人特征,再依据步骤S2中行人中轴线表达式由校正后的行人特征采样点位置精准定位行人中轴线;
S5、设计行人中轴线至行人外接矩形转换算法,将步骤S4中所得精准行人中轴线转换至行人外接矩形,定位车载图像中的行人。


2.根据权利要求1所述基于中轴线的无锚点车载行人检测方法,其特征在于,步骤S1中,ResNet-50网络包括第一阶段C1至第五阶段C5,其中第二阶段C2至第五阶段C5均由指定数量相似的残差块串联而成,同一阶段内各残差块输出的特征图的分辨率相同,每个残差块由标准卷积块(ConvBlock)和识别块(IdentityBlock)组成;
ResNet-50网络中各相邻阶段间存在二倍的下采样关系,每次下采样后特征图尺度在长宽维度上均缩小为前一阶段的二分之一;最终提取的车载图像特征的集合为第二阶段C2至第五阶段C5四个阶段最后输出的特征图组成的集合。


3.根据权利要求2所述基于中轴线的无锚点车载行人检测方法,其特征在于,步骤S1中,所述上采样操作为两倍上采样操作,是指通过最邻近插值法将特征图的长度和宽度均扩展至原始尺寸的两倍;将ResNet-50网络的第五阶段C5输出的特征图通过1×1卷积操作后得到的特征图记为第五特征图M5,对第五特征图M5自顶向下实施三次两倍的上采样操作得到三张特征图,分别与ResNet-50网络第四阶段C4、第三阶段C3和第二阶段C2输出的特征图的分辨率保持一致;
所述横向连接操作指将三次两倍上采样操作所得特征图分别与ResNet-50中第四阶段C4、第三阶段C3和第二阶段C2输出的特征图经1×1卷积操作统一通道数后进行元素相加,分别得到第四特征图M4、第三特征图M3和第二特征图M2;
所述特征金字塔共有四个层级,构建过程为:对第二特征图M2、第三特征图M3第四特征图M4和第五特征图M5分别进行3×3卷积计算,分别得到包括第一层级P2至第四层级P5的四层特征金字塔。


4.根据权利要求3所述基于中轴线的无锚点车载行人检测方法,其特征在于,步骤S2中,所述定位网络包括三个三个堆叠的标准3×3缓冲卷积层、一个3×3的标准卷积层和一个1×1卷积层;
三个堆叠的标准3×3缓冲卷积层的输出维度都是256,后接一个输出维度为256的3×3的标准卷积层和一个1×1卷积层,卷积层的输出维度为2n,其中n为一组特征采样点的个数;
定位网络以特征金字塔的第一层级P2至第四层级P5的特征图为输入,分别进行采样,输出的特征图中每个像素点位置包括2n维的特征向量,表示以该位置为初始化中心点的偏移量;接下来定位网络通过若干卷积层获取特征采样点集合;特征采样点集合中每个元素为一组特征采样点,记为其中(xk,yk)为特征采样点组中第k个点的坐标,一组共包括n个特征采样点。


5.根据权利要求4所述基于中轴线的无锚点车载行人检测方法,其特征在于,步骤S2中,假设l表示行人的中轴线,则其具体表达式如下:
l=(xcenter,ytop,ybottom);
其中,以输入的车载图像的左上角为坐标系原点,xcenter表示行人中轴线的几何中心点在x轴方向上的坐标值,ytop和ybottom分别表示行人中轴线的上顶点和下顶点在y轴方向上的坐标值;
采用中轴线回归损失函数监督定位网络采样特征金字塔,定位网络的训练过程具体如下:
S2.1、对边界框形式的行人原始标注作出转换,获取中轴线标注;假设G=(xtl,ytl,w,h)为原始矩形标注框,其中xtl和ytl分别表示标注框左上角点的横、纵坐标值,w和h分别表示宽度和高度,则通过如下公式得到与行人的中轴线l形式相同的中轴线标注g:



S2.2、对预测所得全部中轴线l与对应标注g计算回归损失,所述中轴线回归损失函数公式如下:



其中,Np表示正样本总数,i表示正样本集合中样本序号,所采用的SmoothL1回归损失函数的表达式如下:





6.根据权利要求5所述基于中轴线的无锚点车载行人检测方法,其特征在于,步骤S3具体包括以下步骤:
S3.1、构造分类网络,首先...

【专利技术属性】
技术研发人员:张梦雪刘琼
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1