一种基于注意力机制的目标跟踪算法制造技术

技术编号:33373525 阅读:13 留言:0更新日期:2022-05-11 22:40
本发明专利技术公开了一种基于注意力机制的目标跟踪算法。基于检测的目标跟踪,主要面临以下两个方面的挑战:其一是目标跟踪的质量往往取决于目标检测的质量。其二则是在目标跟踪过程中,存在ID切换和合并的问题。因此,本发明专利技术根据上述问题,基于EfficientDet算法提出了一种基于注意力机制的目标跟踪算法,从运动预测和外观特征表示两个角度进行了改进,以达到优化目标跟踪算法对于目标跟踪场景下存在的ID切换和合并的问题的适应能力。和合并的问题的适应能力。

【技术实现步骤摘要】
一种基于注意力机制的目标跟踪算法


[0001]本专利技术涉及深度学习中的目标跟踪领域,针对视频图像中的目标被遮挡而导致的ID切换和合并的问题,提出一种基于注意力机制的目标跟踪算法。

技术介绍

[0002]近年来,随着目标跟踪的不断发展,越来越多的跟踪算法逐渐落实到了实际应用中。长时目标跟踪也渐渐得到了关注,长时目标跟踪是目标跟踪领域的一个重要分支,相比于短时目标跟踪,长时目标跟踪场景往往伴随着较长的视频序列,这更加贴切实际的应用场景,更具有实际意义。相比于目标跟踪算法在较短的数据集上对目标进行跟踪,长时目标跟踪更关注于能够在尽可能长时间下跟踪目标,这也使其更具有实用价值。
[0003]多目标跟踪(MOT)是计算机视觉中的核心问题。它识别和区分帧中的每个对象并跟踪它们直到它们离开场景。除了在对象周围绘制矩形边界框并指示其类别的对象检测之外,MOT算法还为每个框分配一个ID以区分相同的类实例。MOT可以被视为数据关联问题,因为目标是关联跨多个帧的检测。多目标跟踪方法根据初始化方法可分为基于检测的多目标跟踪DBT(Detection

Based Tracking)和基于初始框无需检测器的多目标跟踪DFT(Detection

Free Tracking)。DFT方法需要手动识别目标,然后在后续帧中对其进行跟踪。然而,在大多数MOT实时应用中,我们没有目标的先验知识。DBT方法通过检测每一帧中的对象并在视频播放时完成轨道来构建轨道。因此,DBT方法更适合MOT。根据处理方式,MOT方法可分为在线方法和离线方法。在线方法仅使用当前帧和前一帧,因此,更适合实时应用。Simple Online and Real

time Tracking(SORT)及其深度扩展(DeepSORT)是通过检测框架进行的简单、快速和有效的多对象跟踪。它们的主要优点是简单性和速度。但是,它们仍然存在一些问题,例如身份切换、实例合并和许多误报,导致跟踪结果无法用于计数等后续任务。

技术实现思路

[0004]为了优化多目标跟踪中存在的ID切换和实例合并的问题,本专利技术提出了一种基于注意力机制的长时目标跟踪算法。该算法基于EfficientDet算法,并做出了网络结构的改进。具体步骤如下:
[0005]步骤1:将两个连续的视频图像帧作为检测网络的输入,这两张图像通过相同的主干网络和BiFPN网络,得到五个不同空间分辨率的特征图;
[0006]步骤2:通过注意力特征映射,利用物体在当前帧中的位置来预测它在下一帧中的位置;
[0007]步骤3:在检测器失效或者发生遮挡的情况下,转而使用卡尔曼滤波器进行运动预测,并引入外观特征描述模块,通过重用步骤1中的特征,进行目标的重识别。
[0008]与现有技术相比,本专利技术的有益效果是:
[0009](1)在EfficientDet中加入了运动预测,并且在运动预测中隐式地使用外观特征,
利用连续两幅视频图像之间的注意力实现了更稳健的检测和运动预测。
[0010](2)从EfficientDet中直接提取目标的特征描述符,通过利用相应图像中感兴趣区域的注意力,有效地解决了ID切换和合并的问题。
附图说明
[0011]图1为:Non

Local Block结构图。
[0012]图2为:修改后的EfficientDet的结构图
[0013]图3为:基于EfficientDet的特征表示结构图
具体实施方式
[0014]下面结合附图对本专利技术进一步说明。
[0015]本专利技术提针对多目标跟踪中存在的ID切换和实例合并的挑战,提出了一种基于注意力改进的多目标跟踪算法。算法总体框架如图1所示。
[0016]该算法由运动预测模块和外观特征描述模块两个模块组成。运动预测模块旨在能够准确的利用输入图像之间的注意力来进行更稳健的检测和跟踪;而外观特征描述模块则在目标未被检测到或者被遮挡时配合卡尔曼滤波来使用,以解决目标ID切换和合并的问题。
[0017](1)运动预测
[0018]为了进行更准确的运动预测,对EfficientDet网络进行了修改,使它可以将两个连续的视频图像作为输入。这两张图像通过相同的主干网络和BiFPN网络,每张图像都给出了五个不同空间分辨率的特征图。通过Non

Local Blocks的方式,融合每一对大小相同且属于相邻两帧的特征映射。Non

Local Blocks的结构如附图1所示。
[0019]通过引入一种注意力机制来预测下一帧中对象的运动,从而实现更稳健的运动预测。该注意力机制的数学描述如式(1)所示。
[0020]y
t|t+1
=attn1(x
t
,x
t+1
)#(1)
[0021]其中x
t
表示t帧的特征映射,x
t+1
表示t+1帧的特征映射,输入a基于b的注意力特征映射attn(a
i
,b)如式(2)所示。
[0022][0023]式中f(ai,bj)表示每个位置i在输入a和每个位置j在输入b的一种亲和力,g(bj)表示位置j的输入通过1*1卷积之后的一种表示。
[0024]对于每个头部,使用两个Non

Local Blocks。将相同分辨率的输入按深度级连接并传递给分类头,分类头根据第一幅图像为每个锚点输出一个类向量,根据第二幅图像为每个锚点输出另一个类向量。并将连接的特征映射也传递给回归头,得到第一张图像中的方框坐标和第二张图像中的方框位置。修改后的EfficientDet网络结构如附图2所示。
[0025](2)外观特征描述模块
[0026]由于修改后的EfficientDet网络只预测下一帧的运动,所以当网络没有检测到或者出现遮挡时,则继续使用卡尔曼滤波器进行运动预测。但是由于卡尔曼滤波器只做位置
预测,不会考虑马锦标的外观,在遮挡的情况下会导致关联不准确。
[0027]因此,本专利技术引入了外观特征描述模块,通过重用EfficientDet中提取的特征,实现了一个类似于DeepSORT中特征提取网络的模块从而不需要对图像进行调整大小的裁剪。经过对象裁剪图像训练的Siamese网络提供了这些对象的位置无关的外观描述,因此,为了获得特征提取中涉及的目标位置,使用Non

Local Blocks计算感兴趣区域的集中注意特征图。该方法将隐式地使用关于对象位置的信息。
[0028]当需要在图像中提取表示一个对象的特征时,首先在五个特征映射和对象的边界框之间执行一个感兴趣区域的池化。然后利用整幅图像给与roi的注意力,计算roi。该模型将使用长期依赖关系并利用关于对象位置的信息。得到的关注roi以级联方式反馈到描述网络中。该网络是一个宽残差网络,具有两个卷积本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的目标跟踪算法,其特征在于,包括以下步骤:步骤1:将两个连续的视频图像帧作为网络的输入,这两张图像通过相同的主干网络和BiFPN网络,得到五个不同空间分辨率的特征图;步骤2:通过注意力机制,利用物体在当前帧中的位置来预测它在下一帧中的位置;步骤3:在检测器失效或者发生遮挡的情况下,转而使用卡尔曼滤波器进行运动预测,并引入外观特征描述模块,通过重用步骤1中的特征,进行目标的重识别。2.如权利要求1所述方法,其特征在于,步骤2中的注意力机制通过一种Non

【专利技术属性】
技术研发人员:贾海涛王子彦周焕来吴俊男曾靓田浩琨赫熙煦王俊
申请(专利权)人:一拓通信集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1