多目标跟踪方法及装置制造方法及图纸

技术编号:37395823 阅读:19 留言:0更新日期:2023-04-27 07:33
本公开涉及计算机技术领域,提供了一种多目标跟踪方法及装置。该方法包括:对第一时刻采集的第一场景图片和第二时刻采集的第二场景图片分别进行目标检测,得到第一检测框集合、第一特征图、第二检测框集合以及第二特征图;对第一目标检测框在第一特征图中的第一目标检测框特征图进行聚合处理,得到第一聚合特征图;根据第一目标检测框在第一场景图片中的位置在第二场景图片中确定第一目标检测框对应的目标区域,并对第二目标检测框特征图进行聚合处理,得到第二聚合特征图;将第一聚合特征图和第二聚合特征图输入到预置的注意力跟踪模型,生成预测框;将预测框和第二检测框集合中的检测框进行匹配,得到第一目标检测框对应的目标的轨迹。应的目标的轨迹。应的目标的轨迹。

【技术实现步骤摘要】
多目标跟踪方法及装置


[0001]本公开涉及计算机
,尤其涉及一种多目标跟踪方法及装置。

技术介绍

[0002]多目标跟踪是在视频或者连续画面中检测目标实例,然后将目标实例临时关联起来形成轨迹的研究。
[0003]作为一种多目标跟踪方案,原始的SORT(Simple Online And Realtime Tracking,简单的在线和实时跟踪)采用基于简单几何特征的卡尔曼滤波进行运动建模,该建模过程以匀速运动为前提进行建模,在非匀速移动和遮挡情况等具有挑战性的跟踪场景中,难以达到比较高的跟踪精度。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种多目标跟踪方法、装置、电子设备及计算机可读存储介质,以解决现有技术中多目标跟踪精度较低的技术问题。
[0005]本公开实施例的第一方面,提供了一种多目标跟踪方法,该方法包括:对第一时刻采集的第一场景图片和第二时刻采集的第二场景图片分别进行目标检测,得到第一时刻的第一检测框集合、第一场景图片的第一特征图、第二时刻的第二检测框集合以及第二场景图片的第二特征图;对第一检测框集合中的第一目标检测框在第一特征图中的第一目标检测框特征图进行聚合处理,得到第一聚合特征图;根据第一目标检测框在第一场景图片中的位置在第二场景图片中确定第一目标检测框对应的目标区域,并对目标区域在第二特征图中的第二目标检测框特征图进行聚合处理,得到第二聚合特征图;将第一聚合特征图和第二聚合特征图输入到预置的注意力跟踪模型,生成预测框;将预测框和第二检测框集合中的检测框进行匹配,得到第一目标检测框对应的目标的轨迹。
[0006]本公开实施例的第二方面,提供了一种多目标跟踪装置,该装置包括:目标检测单元,用于对第一时刻采集的第一场景图片和第二时刻采集的第二场景图片分别进行目标检测,得到第一时刻的第一检测框集合、第一场景图片的第一特征图、第二时刻的第二检测框集合以及第二场景图片的第二特征图;第一聚合单元,用于对第一检测框集合中的第一目标检测框在第一特征图中的第一目标检测框特征图进行聚合处理,得到第一聚合特征图;第二聚合单元,用于根据第一目标检测框在第一场景图片中的位置在第二场景图片中确定第一目标检测框对应的目标区域,并对目标区域在第二特征图中的第二目标检测框特征图进行聚合处理,得到第二聚合特征图;注意力跟踪单元,用于将第一聚合特征图和第二聚合特征图输入到预置的注意力跟踪模型,生成预测框;匹配单元,用于将预测框和第二检测框集合中的检测框进行匹配,得到第一目标检测框对应的目标的轨迹。
[0007]本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0008]本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0009]本公开实施例与现有技术相比存在的有益效果是:通过对不同时刻的场景图片进行目标检测,将前一时刻的检测框以及其在后一时刻的场景图片中的对应目标区域的特征图一同输入到预置的注意力跟踪模型,并将注意力跟踪结果与后一时刻的检测框进行匹配,得到目标跟踪轨迹,相比较现有技术,可以提高多目标跟踪的精度。
附图说明
[0010]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0011]图1是本公开实施例提供的一种多目标跟踪方法的流程示意图;
[0012]图2是本公开实施例提供的另一种多目标跟踪方法的流程示意图;
[0013]图3是本公开实施例提供的一种注意力跟踪模型的结构示意图;
[0014]图4是本公开实施例提供的自注意力卷积网络的结构示意图;
[0015]图5是本公开实施例提供的一种多目标跟踪装置的结构示意图;
[0016]图6是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0017]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
[0018]下面将结合附图详细说明根据本公开实施例的多目标跟踪方法和装置。
[0019]图1是本公开实施例提供的一种多目标跟踪方法的流程示意图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行,例如终端或服务器。如图1所示,该多目标跟踪方法包括:
[0020]步骤S101,对第一时刻采集的第一场景图片和第二时刻采集的第二场景图片分别进行目标检测,得到第一时刻的第一检测框集合、第一场景图片的第一特征图、第二时刻的第二检测框集合以及第二场景图片的第二特征图。
[0021]具体地,可以将一帧第一时刻t采集的第一场景图片输入到目标检测器,得到第一时刻t的第一检测框集合D
t
,将一帧第二时刻t+δ采集的第二场景图片输入到目标检测器,得到第二时刻t+δ的第二检测框集合D
t+δ
。其中,目标检测器可以是以人体为检测目标的人体检测器。目标检测器可以采用yolox模型,yolox模型可以提供高性能的目标检测。yolox模型或者其它目标检测器的主干网络(backbone)可以分别对第一场景图片和第二场景图片进行特征提取,得到对应的第一特征图F
t
和第二特征图F
t+δ

[0022]在本公开实施例中,第一时刻t为在先时刻,第二时刻t+δ为在后时刻。第一场景图片和第二场景图片可以为在同一环境中先后拍摄的两张图片,也可以为在该环境中拍摄的
同一视频中的两张图片。
[0023]步骤S102,对第一检测框集合中的第一目标检测框在第一特征图中的第一目标检测框特征图进行聚合处理,得到第一聚合特征图。
[0024]具体地,选取第一检测框集合中的一个检测框,即第一目标检测框。根据第一目标检测框在第一场景图片中的位置D
t
得到第一目标检测框在第一特征图F
t
上的第一目标检测框特征图,并将该第一目标检测框特征图输入到不受大小影响的Roi Align层,得到第一聚合特征图同理,将第一检测框集合中的其它检测框在第一特征图中的其它目标检测框特征图进行聚合处理,可以得到第一特征图中的其它目标检测框特征图对应的其它聚合特征图,即可以得到第一检测框集合中的各个检测框对应的聚合特征图其中,i为第一检测框集合中的目标的索引,i=1,2,3
……
n,n为第一检测框集合中的目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多目标跟踪方法,其特征在于,所述方法包括:对第一时刻采集的第一场景图片和第二时刻采集的第二场景图片分别进行目标检测,得到所述第一时刻的第一检测框集合、所述第一场景图片的第一特征图、所述第二时刻的第二检测框集合以及所述第二场景图片的第二特征图;对所述第一检测框集合中的第一目标检测框在所述第一特征图中的第一目标检测框特征图进行聚合处理,得到第一聚合特征图;根据所述第一目标检测框在所述第一场景图片中的位置在所述第二场景图片中确定所述第一目标检测框对应的目标区域,并对所述目标区域在所述第二特征图中的第二目标检测框特征图进行聚合处理,得到第二聚合特征图;将所述第一聚合特征图和所述第二聚合特征图输入到预置的注意力跟踪模型,生成预测框;将所述预测框和所述第二检测框集合中的检测框进行匹配,得到所述第一目标检测框对应的目标的轨迹。2.根据权利要求1所述的方法,其特征在于,将所述第一聚合特征图和所述第二聚合特征图输入到预置的注意力跟踪模型,生成预测框,包括:将所述第一聚合特征图和所述第二聚合特征图分别输入到所述注意力跟踪模型的第一自注意力模块,得到对应的去噪后的第一去噪特征图和第二去噪特征图;将所述第一去噪特征图和所述第二去噪特征图输入到所述注意力跟踪模型的信息交互模块,得到表征所述第一目标检测框和所述目标区域的关联关系的第一关联特征;根据所述第一关联特征生成所述预测框。3.根据权利要求2所述的方法,其特征在于,根据所述第一关联特征生成所述预测框,包括:将所述第一关联特征输入所述注意力跟踪模型的第二自注意力模块,得到第二关联特征;将所述第二关联特征输入到所述注意力跟踪模型的全连接层,得到所述预测框。4.根据权利要求3所述的方法,其特征在于,所述第一自注意力模块和所述第二自注意力模块均包括自注意力卷积网络,所述自注意力卷积网络处理第一输入特征的过程包括:对所述第一输入特征使用1
×
1卷积对像素的三个通道分别进行压缩,得到中间特征,所述中间特征包括第一通道特征、第二通道特征和第三通道特征;根据所述第一通道特征和所述第二通道特征获取像素之间的相似度;根据所述相似度和所述第三通道特征获取使用所述自注意力卷积网络进行注意力机制处理后的输出特征。5.根据权利要求2所述的方法,其...

【专利技术属性】
技术研发人员:祁晓婷黄泽元蒋召
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1