一种扩散模型赋予跟踪提议传播的多目标跟踪方法技术

技术编号：41104257 阅读：4 留言：0更新日期：2024-04-25 13:59

本发明专利技术提供一种扩散模型赋予跟踪提议传播的多目标跟踪方法，应用于目标识别技术领域，包括:将所述连续的图像集或视频的每帧图像依次输入预训练的多目标跟踪模型，识别每一帧的跟踪目标，并获取所述跟踪目标对应的边界框，得到跟踪目标对应的轨迹。本发明专利技术能够显著提升了目标跟踪的检测和关联能力，保证在复杂场景中的跟踪能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，特别是指一种扩散模型赋予跟踪提议传播的多目标跟踪方法和装置。

技术介绍

1、计算机视觉领域中的多目标跟踪算法的研究目的是开发出一种能够自动识别和跟踪视频或图像中多个目标的方法。其主要目标包括以下几个方面：目标检测与识别：多目标跟踪算法的首要任务是准确地检测和识别输入图像或视频中的多个目标。这包括目标的位置、边界框、外观特征以及类别信息的获取；目标跟踪：算法需要能够在连续的图像或视频帧中跟踪目标的运动。这涉及到目标在时间上的一致性和连续性，算法需要根据前一帧中目标的位置信息来预测和更新当前帧中目标的位置；鲁棒性与实时性：多目标跟踪算法需要具备鲁棒性，能够应对各种场景中的复杂情况，例如光照变化、背景杂乱、目标形变等。同时，算法还需要具备实时性能，能够在实时视频流中进行高效的目标跟踪。

2、研究多目标跟踪算法的目的是提高计算机对于视频或图像中多个目标的理解和分析能力，为各种应用领域(如视频监控、自动驾驶、智能交通等)提供更精确、高效的目标检测和跟踪技术。

3、现有的高效的多目标跟踪算法大多数分为两种模式，分别是tbd(tracking bydetection)模式，和jdt(joint detection and tracking)模式。tbd模式采用先检测出目标，再对目标在时间维度上进行信息关联的方式来实现目标跟踪，主流的tbd模式的算法有sort、deepsort、bytetrack等，而jdt模式则是检测目标、目标身份信息提取与关联在一个模型里同时进行，比较主流的jdt模式算法有jde、trades、motr等。

4、检测跟踪(tbd)范式将多目标跟踪视为两个独立的任务：物体检测和物体跟踪。首先，使用有效的检测器生成高质量的检测框，然后由关联模型处理这些框，考虑外观和运动线索。关联过程利用成对的外观重新识别(re-id)相似性进行外观匹配，并采用各种启发式方法，如交并比(iou)或卡尔曼滤波，进行基于运动的关联。尽管tbd范式已经被广泛用于多目标跟踪，但其两阶段框架在训练期间妨碍了端到端的优化。

5、相比之下，联合检测和跟踪(jdt)范式旨在通过在单个阶段中实现多个对象的检测和关联来解决这一局限。然而，基于jdt的方法，如motr和trades，在优化方面面临挑战，因为在外观学习中存在内在的竞争，检测在学习过程中增加了类间方差，而reid增加了类内方差，导致跟踪性能不佳。

6、端到端的motr(multiple object tracking with transformers)是一种基于transformer架构的多目标跟踪算法，它在计算机视觉领域中取得了显著的突破。motr算法结合了目标检测和目标跟踪的任务，并利用transformer模型来实现端到端的多目标跟踪。通过在transformer编码器中引入自注意力机制(self-attention)，motr算法能够对目标进行关联和跟踪。每个目标在每一帧中都被视为一个单独的对象，并且通过计算它与其他目标的相似性来进行跟踪。通过自注意力机制，算法可以捕获目标之间的关联信息和上下文依赖，从而实现准确的多目标跟踪。motr引入transformer编码器来捕获目标之间的关系和动态特征，提高了多目标跟踪的准确性。

7、为了缓解与竞争性外观学习相关的挑战，一些方法如fairmot进行了网络设计的精细调整，cstrack引入了具有自关系和交叉关系的互惠网络(ren)，以鼓励每个分支中更好的任务相关表示。虽然这些方法通过网络设计减轻了外观学习中的竞争，但本申请提出，多目标跟踪本质上涉及跟踪对象之间的对比学习过程。在某些情况下，被跟踪的对象可能在接近的距离内，因此区分它们的外观特征至关重要。在其他情况下，看起来相似的对象可能相距甚远，因此需要区分它们的位置信息。因此，在现有数据集中具有丰富的负样本对于区分被跟踪对象的外观和位置差异至关重要。然而，这由于现有数据集中负样本的有限可用性而构成挑战。

技术实现思路

1、为了解决现有技术存在的现有数据集中负样本的有限可用性的技术问题，本专利技术实施例提供了一种扩散模型赋予跟踪提议传播的多目标跟踪方法和装置。所述技术方案如下：

2、一方面，提供了一种扩散模型赋予跟踪提议传播的多目标跟踪方法，该方法由扩散模型赋予跟踪提议传播的多目标跟踪设备实现，该方法包括：

3、s1：获取连续的图像集或视频；

4、s2：将所述连续的图像集或视频的每帧图像依次输入预训练的多目标跟踪模型，所述多目标跟踪模型包含去噪扩散模块、骨干网络、prodiffuse编码器和prodiffuse解码器，所述骨干网络是resnet-50网络模型，所述prodiffuse编码器是基于transformer的编码器，所述prodiffuse解码器是基于transformer的解码器；

5、s3：利用所述主干网络和prodiffuse编码器，对每帧图像，进行图像特征提取，得到图像特征；

6、s4：利用所述去噪扩散模块，对每帧图像，依次通过随机提议序列生成机制传递，产生提议查询，得到提议查询的结果，所述提议查询包括随机提议查询、已跟踪目标提议查询和已跟踪目标实例查询；

7、s5：对每帧图像，将所述提议查询的结果和所述图像特征输入prodiffuse解码器，识别每一帧的跟踪目标，并获取所述跟踪目标对应的边界框，所述提议查询的结果在第一帧包含随机提议查询的结果，从第二帧开始包含已跟踪目标实例查询的结果；

8、s6：对所述提议查询的结果进行后处理，得到跟踪目标对应的轨迹。

9、优选地,在所述s01的将所述连续的图像集或视频的每帧图像依次输入预训练的多目标跟踪模型之前,所述方法还包括：

10、s01:获取一个待训练的多目标跟踪模型；

11、所述s01的获取一个待训练的多目标跟踪模型，包括：

12、s011：构建去噪扩散模块，所述去噪扩散模块的输入为连续的图像集或视频的每帧图像；

13、s012：基于resnet-50网络模型初始化一个骨干网络，所述骨干网络的输入为连续的图像集或视频的每帧图像；

14、s013：基于transformer模型构建一个prodiffuse编码器，所述prodiffuse编码器的输入为所述骨干网络的输出；

15、s014：基于transformer模型构建一个prodiffuse解码器，所述prodiffuse解码器的输入为所述prodiffuse编码器的输出、所述去噪扩散模块的输出和前一帧的prodiffuse解码器的输出；

16、s015：将去噪扩散模块、骨干网络、prodiffuse编码器和prodiffuse解码器组合成一个多目标跟踪模型。

17、优选地,在所述s02的将所述连续的图像集或视频的每帧图像依次输入预训练的多目标跟踪模型之前,所述方法还包括：

1本文档来自技高网...

【技术保护点】

1.一种扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，在所述S2的将所述连续的图像集或视频的每帧图像依次输入预训练的多目标跟踪模型之前,所述方法还包括：

3.根据权利要求1所述的扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，在所述S2的将所述连续的图像集或视频的每帧图像依次输入预训练的多目标跟踪模型之前,所述方法还包括：

4.根据权利要求1所述的扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，所述S4的利用所述去噪扩散模块，对每帧图像，依次通过随机提议序列生成机制传递，产生提议查询，得到提议查询的结果，所述提议查询包括随机提议查询、已跟踪目标提议查询和已跟踪目标实例查询，包括：

5.根据权利要求4所述的扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，所述S41的利用所述去噪扩散模块，从第一帧开始，进行随机提议查询，得到随机提议查询的结果，所述随机提议查询是基于高斯过程生成提议序列，包括：

6.根据权利要求4所

7.根据权利要求1所述的扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，所述S6的对所述提议查询的结果进行后处理，得到跟踪目标对应的轨迹，包括：

8.一种扩散模型赋予跟踪提议传播的多目标跟踪装置，其特征在于，所述装置适用于上述权利要求1-7中任一项所述的方法，装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述权利要求1至7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述权利要求1至7中任意一项所述的方法。

...

【技术特征摘要】

1.一种扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，在所述s2的将所述连续的图像集或视频的每帧图像依次输入预训练的多目标跟踪模型之前,所述方法还包括：

3.根据权利要求1所述的扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，在所述s2的将所述连续的图像集或视频的每帧图像依次输入预训练的多目标跟踪模型之前,所述方法还包括：

4.根据权利要求1所述的扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，所述s4的利用所述去噪扩散模块，对每帧图像，依次通过随机提议序列生成机制传递，产生提议查询，得到提议查询的结果，所述提议查询包括随机提议查询、已跟踪目标提议查询和已跟踪目标实例查询，包括：

5.根据权利要求4所述的扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，所述s41的利用所述去噪扩散模块，从第一帧开始，进行随机提议查询，得到随机提议查询的结果，所述随机提议查询是基于高斯过程生成提议序列，包括：

6.根据权利要求4所述的扩散模型赋予跟踪提议传播的多目标跟踪方法，其特征在于，所述s43的从第...

【专利技术属性】
技术研发人员：刘红敏，张灿彬，徐婧林，樊彬，
申请(专利权)人：北京科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人