一种基于重点区域实景建模的视频目标检测与跟踪方法技术

技术编号:34950009 阅读:18 留言:0更新日期:2022-09-17 12:26
本发明专利技术公开一种基于重点区域实景建模的视频目标检测与跟踪方法,将重点区域卫星定位信息转化成三维全景地图;对三维全景地图提取高层特征,根据重点区域天气信息对对应视频流进行处理得到清晰的重点区域实景建模视频帧,将一系列帧输入骨干网络提取高级特征再通过空洞残差网络,将目标检测任务化大为小,使用跨模态注意力模块进行多模态信息融合,通过叠加连续帧的特征图得到特征融合图,进而获得连续的目标时空特征,同时结合之前画面帧获得的跟踪边界框,最后匹配目标框和跟踪框实现检测与跟踪任务。本发明专利技术对重点区域进行实时实景建模,有效解决重点区域的复杂人流车流造成的目标遮挡与错误跟踪问题,使得算法具有更好的鲁棒性。棒性。棒性。

【技术实现步骤摘要】
一种基于重点区域实景建模的视频目标检测与跟踪方法


[0001]本专利技术属于视觉目标检测技术,具体涉及一种基于重点区域实景建模的视频目标检测与跟踪方法,涉及基于空洞残差编码的目标检测算法与实景建模视频跟踪方法属于图像处理领域。

技术介绍

[0002]目标检测一直以来都是计算机视觉任务中的经典问题,其广泛应用于人脸识别,自动驾驶,智能视频监控等领域,因此成为了近年来的研究热门方向。对于当前的计算机视觉系统,基于视频的场景理解的研究是计算机理解人类行为必不可少的组成。为了估计视频中感兴趣对象的轨迹,目标跟踪是一项重要任务,其应用于许多实际场景中,例如视觉监视,公共安全,体育视频分析和人机交互,因此视频目标检测与跟踪成为了近年来的一个研究重点。
[0003]目前的目标检测算法大多运用了特征金字塔结构,该结构一方面可以进行多尺度融合大大提高了特征的丰富程度,另一方面可以将目标检测任务分为若干个子检测任务,达到化繁为简的目的。但是,由于特征金字塔的复杂结构也增加了模型的计算量,提高了计算机的硬件需求。最近,基于注意力机制的Transformer模型被广泛应用于计算机视觉领域,由于该模型具有很强大的关系建模能力,可以建立视频样本的时空依赖关系,也很适合应用在目标跟踪领域。
[0004]然而,现有的基于注意力机制的模型在初始化阶段的注意力权重几乎是均匀分配的,但是训练好的模型得到的注意力权重又是稀疏的,也就是说该模型在训练过程中难以收敛。同时,对于一些小目标或是在复杂密集场景中的目标,模型需要的输入图像数据具有较高分辨率,这也增加计算复杂度,限制了该模型在目标检测与跟踪中的应用。

技术实现思路

[0005]专利技术目的:本专利技术的目的在于解决现有技术中存在的不足,提供一种基于重点区域实景建模的视频目标检测与跟踪方法,本专利技术使用单一特征以及分治法构建一个拥有良好性能的目标检测器,可以避免使用比较复杂的特征金字塔模块,只保留高层的特征进行输入,网络也可以保持良好的性能,并且降低计算负担。
[0006]本专利技术为了解决现有技术中存在的问题,提供一种基于重点区域实景建模的视频目标检测与跟踪方法。利用空洞残差编码器来捕获不同感受野特征信息,以此实现将大的检测任务分解为若干小的目标坚持任务,实现各种尺度物体的鲁棒性检测;利用基于稀疏空间采样注意力的方法加速模型收敛并降低运算复杂度。为了达到上述目的,本专利技术提出的技术方案为。
[0007]技术方案:本专利技术的一种基于重点区域实景建模的视频目标检测与跟踪方法,包括以下步骤:
[0008]步骤一、输入重点区域的卫星定位信息L,通过逆地理编码函数得到重点区域的3
维全景地图BMAP,然后对重点区域的3维全景地图进行稀疏点采样,得到重点区域的实景建模数据集b=Ω(BMAP);接着,将获取到的实景建模数据输入到刚性不变特征提取器,以获取实景建模数据的高层特征S;
[0009]步骤二、将步骤一所得重点区域的卫星定位信息L(即经纬度信息)输入天气查询函数Υ(.)中,得到天气信息W_dic后输入雨雾判断器,其作用是解析获得的字典数据,从而判断重点区域是否为良好天气;若非良好天气,则将重点区域的视频流输入到多阶段渐进式图像恢复模块,利用多阶段渐进式图像恢复模块进行图像去雾及去雨等预处理来获取纯净的视频数据;
[0010]步骤三、将进行预处理之后的视频数据转换为图片并输入到骨干网络ResNet50中得到高层语义特征C5;接着,利用空洞残差编码器对骨干网络输出的高层语义特征C5进行编码,并将空洞残差编码器输出的特征输入到空洞残差模块中,以此来捕获不同感受野特征,最终得到不同感受野的融合特征P5;
[0011]步骤四、将步骤三所得融合特征P5与步骤一所得实景建模数据的高层特征S进行融合,即:使用跨模态注意模块获取两种模态的注意力;然后再使用多层感知机网络进行非线性拟合,接着,利用得到的当前帧特征图叠加前一帧的特征图,得到连续两帧的特征融合图
[0012]步骤五、将步骤四特征融合图拉伸后得到一系列的特征点向量C为特征融合图的通道数,结合参考特征点与其偏移量得到最终的采样点向量;利用查询向量与得到的最终关键值采样点向量,得到当前帧的特征图的Transformer编码器输出,然后利用目标查询与关键值采样点向量获得当前帧解码器输出的目标特征,同时利用前一帧的目标特征作为当前帧的跟踪查询向量v
qt
,同样经过解码器后获得跟踪特征,同样经过解码器后获得跟踪特征D为跟踪解码器;
[0013]步骤六、将步骤五中目标特征和跟踪特征通过前馈神经网络分别得到检测框以及跟踪框,利用匈牙利匹配方法将检测框与跟踪框建立匹配关系,得到最终跟踪结果。
[0014]进一步地,所述步骤一重点区域实景建模数据处理包括:
[0015]输入重点区域的卫星定位信息,然后利用逆地理编码函数获取重点区域的3维全景地图BMAP,BMAP=T(L),其中,L代表重点区域的经纬度信息且经度在前纬度在后,BMAP代表获取到的3维全景地图数据;
[0016]接着,利用点采样函数对3维全景地图数据进行稀疏点采样:b=Ω(BMAP);其中,代表抽取到的点云数据,N表示点的数目且每一个点的坐标为(x,y,z);
[0017]将获取到的点云数据输入到刚性不变特征提取器,获取点云的高层特征S:
[0018]S=MAXPOOL(MLPs(b));
[0019]其中,MLPs表示一系列多层感知机,MAXPOOL代表的是矩阵的取最大数操作,S代表的是点云的高层特征,其具有刚性不变的性质。
[0020]进一步地,所述步骤二的具体过程为:
[0021]先对重点区域的视频流进行处理:
[0022]利用卫星定位获取的重点区域的经纬度信息,通过使用天气查询函数Υ(.),得到
重点区域的天气信息W_dic,此处的天气信息为字典数据,若是良好天气则其值为1,否则为0,即:W_dic=Υ(L),其中,L代表重点区域的经纬度信息,经度在前纬度在后,W_dic代表得到的该区域的天气信息;若天气字典数据为0则传入多阶段渐进式图像恢复模块进行去雾去雨处理。进一步地,所述步骤三的具体过程为:
[0023]首先,将预处理后的视频数据逐帧输入到ResNet50网络中,并且取最高层的语义特征作为后面的输入:
[0024]C5=ResNet50(x),
[0025]其中,ResNet50网络的网络结构为残差结构,表示为:X=E(x)+G(x),表示预处理后的图片,X代表得到的输出,代表获取到的高层语义特征,B表示批量处理的大小,H,W分别表示图片的高和宽,C表示图片的通道数,则E(
·
)表示为conv1
×
1(conv3
×
3(conv1
×
1(
·
)))(以及相关批归一化处理BN和非线性激活函数RELU),G(
·
)表示conv1
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于重点区域实景建模的视频目标检测与跟踪方法,其特征在于:包括以下步骤:步骤一、输入重点区域的卫星定位信息L,通过逆地理编码函数得到重点区域的3维全景地图BMAP,然后对重点区域的3维全景地图进行稀疏点采样,得到重点区域的实景建模数据集b=Ω(BMAP);接着,将获取到的实景建模数据输入到刚性不变特征提取器来获取实景建模数据的高层特征S;步骤二、将步骤一所得重点区域的卫星定位信息L输入天气查询函数Υ(.)中,得到天气信息W_dic后输入雨雾判断器来判断重点区域是否为良好天气;若非良好天气,则将重点区域的视频流输入到多阶段渐进式图像恢复模块,来进行图像预处理来获取纯净的视频数据;步骤三、将进行预处理之后的视频数据转换为图片并输入到骨干网络ResNet50中得到高层语义特征C5;接着,利用空洞残差编码器对骨干网络输出的高层语义特征C5进行编码,并将空洞残差编码器输出的特征输入到空洞残差模块中,以此来捕获不同感受野特征,最终得到多种感受野的融合特征P5;步骤四、将步骤三所得融合特征P5与步骤一所得实景建模数据的高层特征S进行融合,即:使用跨模态注意模块获取两种模态的注意力;然后再使用多层感知机网络进行非线性拟合,接着,利用得到的当前帧特征图叠加前一帧的特征图,得到连续两帧的特征融合图步骤五、将步骤四特征融合图拉伸后得到编码器的输入特征点向量C为特征融合图的通道数,结合参考特征点与其偏移量得到最终的采样点向量;利用查询向量与得到的最终关键值采样点向量,得到当前帧的特征图的Transformer编码器输出,然后利用目标查询与关键值采样点向量获得当前帧解码器输出的目标特征,同时利用前一帧的目标特征作为当前帧的跟踪查询向量v
qt
,同样经过解码器后获得跟踪特征,同样经过解码器后获得跟踪特征D为跟踪解码器;步骤六、将步骤五中目标特征和跟踪特征通过前馈神经网络分别得到检测框以及跟踪框,利用匈牙利匹配方法将检测框与跟踪框建立匹配关系,得到最终跟踪结果。2.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法,其特征在于:所述步骤一重点区域实景建模数据处理包括:输入重点区域的卫星定位信息,然后利用逆地理编码函数获取重点区域的3维全景地图BMAP,BMAP=T(L),其中,L代表重点区域的经纬度信息且经度在前纬度在后,BMAP代表获取到的3维全景地图数据;接着,利用点采样函数对3维全景地图数据进行稀疏点采样:b=Ω(BMAP);其中,代表抽取到的点云数据,N表示点的数目且每一个点的坐标为(x,y,z);将获取到的点云数据输入到刚性不变特征提取器以此获取点云的高层特征S:S=MAXPOOL(MLPs(b));其中,MLPs表示一系列多层感知机,MAXPOOL代表的是矩阵的取最大数操作,S代表的是点云的高层特征。
3.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法,其特征在于:所述步骤二的具体过程为:先对重点区域的视频流进行处理:利用卫星定位获取的重点区域的经纬度信息,通过使用天气查询函数Υ(.),得到重点区域的天气信息W_dic,若是良好天气则其值为1,否则为0,即:W_dic=Υ(L),其中,L代表重点区域的经纬度信息且经度在前纬度在后,W_dic代表得到的该区域的天气信息;若天气字典数据为0则传入多阶段渐进式图像恢复模块进行去雾去雨处理。4.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法,其特征在于:所述步骤三的具体过程为:首先,将预处理后的视频数据逐帧输入到ResNet50网络中,并且取最高层语义特征作为后面的输入:C5=ResNet50(x),其中,ResNet50网络的网络结构为残差结构,表示为:X=E(x)+G(x);表示预处理后的图片,X代表得到的输出,代表获取到的高层语义特征,B表示批量处理的大小,H,W分别表示图片的高和宽,C表示图片的通道数,E(
·
)表示conv1
×
1(conv3
×
3(conv1
×
1(
·
))),G(
·
)表示conv1
×
1(
·
),conv1
×
1(
·
)表示1
×
1的卷积神经网络,conv3
×
3(
·
)表示3
×
3的卷积神经网络;然后,利用空洞残差编码器将高层语义特征C5编码转化为多种感受野融合特征,即将ResNet50网络第四层得到的高层语义特征作为空洞残差模块的输入,并且输出一个融合多种感受野的特征MC=conv3
×
3(conv1
×
1(C5));接着,利用空洞残差模块捕获不同感受野得到融合特征P5,残差模块表示为:P5=Φ(Φ(Φ(Φ(MC,rate1),rate2),rate3),rate4)其中,Φ(MC,rate

【专利技术属性】
技术研发人员:陈亮李琦张婧剧立伟
申请(专利权)人:南京信息技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1