基于特征融合的鱼眼镜头视角下行人检测与跟踪方法技术

技术编号:38049462 阅读:6 留言:0更新日期:2023-06-30 11:15
本发明专利技术公开了视频图像中的行人检测技术领域的基于特征融合的鱼眼镜头视角下行人检测与跟踪方法,输入图像,编码网络通过多尺度特征融合模块分别采用自下而上、自上而下和横向连接这3种路径提取底层、高层特征进行融合,多尺度特征融合模块提取的每一层特征图都将通过通道注意力机制,使得重要的通道能够被分配到更高的权重;最终的特性图传入解码网络,解码网络负责预测中心热力图中每个网格是检测目标中心点的概率、中心点的偏移量以及对应的长和宽、旋转偏移量。在CenterNet的网络结构上将标准卷积替换为多尺度特征融合并引入角度敏感的空间注意力机制,同时改进损失函数,提升边界框回归效果。提升边界框回归效果。提升边界框回归效果。

【技术实现步骤摘要】
基于特征融合的鱼眼镜头视角下行人检测与跟踪方法


[0001]本专利技术涉及视频图像中的行人检测的
,尤其是涉及基于特征融合的鱼眼镜头视角下行人检测与跟踪方法。

技术介绍

[0002]鱼眼镜头下传统的行人检测算法通常基于背景差方法提取变化区域,通过聚类确定行人位置,在检测结果中常常包含较多的非行人目标,为了准确地检测出行人,文献引入支持向量机SVM分类器对前景目标进行识别,但上述方法往往受环境和光照变化的影响,得到边界框的质量不佳,同时泛化能力较差。随着目标检测技术的发展,出现了深度学习目标检测算法,如YOLO、SSD、Faster R

CNN以及CornerNet等,不过这些算法针对的大多是直立姿态的行人,对鱼眼图像下的畸变行人检测效果不理想,文献指出在鱼眼图像下直接使用YOLOv2进行行人检测时会丢失部分行人,存在着漏检问题。为了检测出具有畸变状态的行人,文献将一张鱼眼图像进行旋转切割,得到36张子图,在子图上使用Faster R

CNN进行检测,并将子图上的检测边界框重新映射到原始鱼眼图像上,同样文献使用YOLOv3在24张子图上进行检测,文献则是基于一张鱼眼图像生成若干透视图,将这些透视图组合起来使用YOLO进行行人检测,尽管上述方法能够取得较好的检测效果,可是使用大量子图进行检测以及过于复杂的前后处理,导致检测效率较低。
[0003]2020年,Duan等人提出一种端到端的旋转感知的鱼眼图像行人检测方法—RAPiD(rotation

aware people detection),使用任意方向的锚框来检测人。使用的全对称神经网络使用周期损失函数直接回归每个锚框的角度,该函数考虑了角度周期性。该模型结构包含主干网络、FPN和检测头(锚框回归网络)。输入图像是1024
×
1024像素或者608
×
608像素。该方法在Nvidia GTX 1650GPU上测试,FPS(frames per second)为7.0,在608
×
608像素分辨率图像输入下的RAPiD性能最好,执行速度最快,但通过实验发现,随着速度加快,精度往往有所下降。
[0004]2020年,Qian等人提出定向空间转换器网络(oriented spatial transformer network,OSTN),旨在增强深层网络处理扭曲图像的能力,受空间变换网络(spatial transformer network,STN)的启发,将水平STN与垂直STN组合以获得更好的性能。OSTN对特征图进行操作,可以纠正每个行人的扭曲特征。基于OSTN的行人检测器利用变换后的鱼眼图像进行训练,可以提高鱼眼图像中行人检测的准确性。在NVIDIA GTX 1080GPU上测试,该算法处理每帧图像时间只需29ms,大幅提升了处理效率,能够满足视频监控的实时性要求。
[0005]2020年,Li等人提出一种自学习和基于轮廓的鱼眼图像目标检测器—FisheyeDet,并提出一种无先验鱼眼表示方法,以保证网络在不需要预先指定透镜参数、特殊标定模式等先验信息的情况下自适应提取畸变特征。此外,为了对鱼眼图像中的目标进行紧密、稳健的定位,提出了以基于畸变目标轮廓的不规则四边形边界盒为核心的畸变形状匹配策略。结合无先验鱼眼表示法和失真形状匹配法,构建出一个端到端网络。该
FisheyeDet由多尺度骨干层、失真特征提取层和预测检测层组成(NMS表示非极大值抑制)。该方法缺乏用于多类目标检测任务的基准鱼眼数据集,模型的泛化性有待评估。
[0006]2021年,Quan等人提出了一种基于中心点检测的鱼眼图像中面向行人检测方法ARPD。ARPD是直接推断鱼眼图像中的定向边界框,而不需要先验框或非最大抑制。除了边界框的位置和尺寸,ARPD还预测其旋转角度,引入了基于平滑L1范数的角度感知周期损失函数。检测旋转目标时,使用传统的Smooth L1损失会更关注减小角度误差(angle error)而不是减小全局IoU。该方法在实践中存在两个基本问题:角度参数引起损失不连续性和参数单位不同影响网络性能。

技术实现思路

[0007]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本专利技术的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0008]鉴于上述现有基于特征融合的鱼眼镜头视角下行人检测与跟踪方法的问题,提出了本专利技术。
[0009]因此,本专利技术目的是提供基于特征融合的鱼眼镜头视角下行人检测与跟踪方法,在CenterNet的网络结构上将标准卷积替换为多尺度特征融合并引入角度敏感的空间注意力机制,同时改进损失函数,提升边界框回归效果。
[0010]为解决上述技术问题,本专利技术提供基于特征融合的鱼眼镜头视角下行人检测与跟踪方法,采用如下的技术方案:输入图像,编码网络通过多尺度特征融合模块分别采用自下而上、自上而下和横向连接这3种路径提取底层、高层特征进行融合,多尺度特征融合模块提取的每一层特征图都将通过通道注意力机制,使得重要的通道能够被分配到更高的权重;最终的特性图传入解码网络,解码网络负责预测中心热力图中每个网格是检测目标中心点的概率、中心点的偏移量以及对应的长和宽、旋转偏移量;
[0011]所述解码网络包括三个预测分支,总损失函数的计算式如下:
[0012]L=λ
hm
L
hm

wh
L
wh

theta
L
theta
ꢀꢀ
(1)
[0013]其中,L
hm
是目标中心热力图分支的损失函数,L
wh
是边界框宽高预测分支的损失函数,L
theta
是角度预测分支的损失函数,λ
hm
、λ
wh
和λ
theta
是用于调整这几个分支权重的参数。
[0014]可选的,所述多尺度特征融合模块用于将每一卷积层的特征图上采样至同一尺寸并拼接在一起。
[0015]可选的,所述通道注意力机制包括将编码网络生成特征图,经过一个卷积网络后生成了尺寸为(batch,1,w和h)的角度特征图,用于表示长度w、宽度h的输入图像中对应空间位置上潜在目标的旋转角度,batch为批次大小;接着计算角度特征图的空间注意力,沿通道轴分别应用最大池化和平均池化,分别生成尺寸为(batch,1,w和h)的特征图Max和Avg;沿通道轴进行连接操作,再经过一个卷积网络增加非线性表达能力,然后使用Sigmoid激活函数将特征值分布到[0,1],得到角度敏感的空间注意力权重图,并与原始的特征图相乘,给特征图在空间角度分配不同权重的注意力,生成目标中心热力图。
[0016]可选的,目标中心本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于特征融合的鱼眼镜头视角下行人检测与跟踪方法,其特征在于:具体包括以下步骤:输入图像,编码网络通过多尺度特征融合模块分别采用自下而上、自上而下和横向连接这3种路径提取底层、高层特征进行融合,多尺度特征融合模块提取的每一层特征图都将通过通道注意力机制,使得重要的通道能够被分配到更高的权重;最终的特性图传入解码网络,解码网络负责预测中心热力图中每个网格是检测目标中心点的概率、中心点的偏移量以及对应的长和宽、旋转偏移量;所述解码网络包括三个预测分支,总损失函数的计算式如下:L=λ
hm
L
hm

wh
L
wh

theta
L
theta
(1)其中,L
hm
是目标中心热力图分支的损失函数,L
wh
是边界框宽高预测分支的损失函数,L
theta
是角度预测分支的损失函数,λ
hm
、λ
wh
和λ
theta
是用于调整这几个分支权重的参数。2.根据权利要求1所述的基于特征融合的鱼眼镜头视角下行人检测与跟踪方法,其特征在于:所述多尺度特征融合模块用于将每一卷积层的特征图上采样至同一尺寸并拼接在一起。3.根据权利要求1所述的基于特征融合的鱼眼镜头视角下行人检测与跟踪方法,其特征在于:所述通道注意力机制包括将编码网络生成特征图,经过一个卷积网络后生成了尺寸为(batch,1,w和h)的角度特征图...

【专利技术属性】
技术研发人员:刘明珠宋诗杰
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1