一种基于时空知识融合与模型动态集成的视频单目标跟踪方法及系统技术方案

技术编号：40574731 阅读：4 留言：0更新日期：2024-03-06 17:15

一种基于时空知识融合与模型动态集成的视频单目标跟踪方法及系统，涉及计算机视觉领域，具体涉及单目标跟踪领域。解决现有单目标跟踪技术中对时序性变化的忽略或处理复杂计算量大的问题。所述构建方法包括以下步骤：步骤S1，基于初始视频中已标注目标位置和尺度信息的初始样本生成样本框，其中目标框是用于标注初始目标位置和尺度信息的矩形框；步骤S2，为所述初始样本生成类别标签；步骤S3，为所述初始样本生成时空知识信息；步骤S4，构造用于分类的卷积神经网络模型，所述卷积神经网络模型包括：第一部分网络和第二部分网络；步骤S5，训练卷积神经网络模型。本发明专利技术在单目标跟踪领域具有应用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，具体涉及单目标跟踪领域。

技术介绍

1、在复杂场景中进行目标跟踪的过程中，光照、尺度、姿态、遮挡等不同干扰因素会对目标的外观特征造成较大的影响，导致持续准确地完成目标跟踪变得较为困难。视频由帧图像的序列所构成，可依据适当的策略估计目标在每一帧图像上可能出现的位置和区域面积，从而产生一定数量的目标候选区域，并利用算法寻找某种条件下最优的候选区域作为目标跟踪的结果。

2、现有的技术主要使用卷积神经网络提取视频帧图像局部区域的特征，并以相似度匹配或者分类的方式进行目标跟踪。上述的现有技术使用卷积神经网络直接在局部图像块上提取特征，即使考虑了特征的空间分布也仅限于局部图像块，对于特征的时序性变化，要么会被忽略从而无法处理目标的形变、遮挡和消失，要么借助rnn、lstm以及transformer等模型，而这些模型的训练和应用本身较为复杂。rnn和lstm模型是逐步处理序列的，每个时间步都需要依次计算，导致计算效率较低。特别是在处理长序列时，计算时间会显著增加。这对于实时应用或者大规模数据集来说是一个挑战。transformer模型通过自注意力机制来建模序列中的依赖关系，但它是基于全局注意力的，即每个位置都会与序列中的所有其他位置进行交互。这在处理长序列时可能会导致计算和存储资源的消耗过大，限制了transformer模型的可扩展性。

技术实现思路

1、为解决现有单目标跟踪技术中对时序性变化的忽略或处理复杂计算量大的问题，本专利技术提供了如下方案：p>

2、一种基于时空知识融合与模型动态集成的视频单目标跟踪模型构建方法，所述构建方法包括以下步骤：

3、步骤s1，基于初始视频中已标注目标位置和尺度信息的初始样本生成样本框，其中目标框是用于标注初始目标位置和尺度信息的矩形框；

4、步骤s2，为所述初始样本生成类别标签；

5、步骤s3，为所述初始样本生成时空知识信息；

6、步骤s4，构造用于分类的卷积神经网络模型，所述卷积神经网络模型包括：第一部分网络和第二部分网络；

7、步骤s5，训练卷积神经网络模型，训练完成后得到一种基于时空知识融合与模型动态集成的视频单目标跟踪模型。

8、进一步，所述步骤s2具体包括：

9、所述步骤s2具体包括：

10、步骤s201，分别获得每个初始样本的样本框与目标框之间的面积重叠比率iou：

11、

12、公式中as表示样本框面积，at表示目标框面积，分子部分表示样本框与目标框重叠部分的面积，分母部分表示样本框与目标框做集合并运算的空间面积，样本框对应的图像块称为样本；

13、步骤s202，将所有面积重叠比率iou依次与预设阈值比较，如果样本框与目标框的iou大于0.7则样本标签设置为1，表示该样本是前景类正样本，如果iou的值小于0.5则样本标签设置为0，表示该样本为背景类负样本。

14、进一步，所述步骤s3具体包括：

15、步骤s301，生成样本空间信息(x,y,w,h,biou1,biou2)，其中，(x,y)为样本框的坐标位置，(w,h)为样本框的宽和的高，biou1与biou2为当前帧样本框与前一帧目标框的空间相对位置关系信息，

16、

17、其中ar表示包含样本框与目标框的最小外接矩形框面积；

18、步骤s302，生成样本时间信息(ia,pt1,pt2,pt3)，以p1个帧为单位将初始视频分成视频段，pt1表示样本在所处视频段的第pt1帧；

19、以p2个帧为单位，将初始视频分成视频段，pt2表示样本在所处视频段的第pt2帧；

20、以p3个帧为单位，将初始视频分成视频段,pt3表示样本在所处视频段的第pt3帧；

21、ia表示样本在以p1个帧为单位将初始视频分成视频段时，样本所处视频段的序号；

22、步骤s303，生成样本时空知识信息，在初始视频的第一帧之前通过复制第一帧的方式补充p1帧，并将第一帧部分正样本定义为补充帧的目标，时间信息中的ia值全设置为0；从原始第一帧开始，将样本所在帧之前p1-1各帧的目标空间和时间信息与样本自身的空间和时间信息进行拼接，生成样本的时空知识信息，

23、[(x,y,w,h,biou1,biou2,ia,pt1,pt2,pt3)n1,...,(x,y,w,h,biou1,biou2,ia,pt1,pt2,pt3)n2]。

24、进一步，所述步骤s4具体包括：

25、步骤s401，构造第一部分网络，用于提取特征，该部分网络由所有视频序列共享，用于针对所有视频序列中每一个视频帧的整幅图像提取特征，所述第一部分网络通过一个roialign层在整幅输出特征图谱中截取由粒子滤波器所生成框的局部区域特征；

26、步骤s402，构造第二部分网络，用于对样本进行分类，该部分网络针对每一个视频序列单独构造，所述第二部分网络包括：三个全连接层和两个dropout层，将第一部分网络最后层的输出展平成一维，并与它对应的时空知识信息拼接融合作为第一个全连接层的输入，最后一个全连接层包含两个类别的概率输出，使用二分类函数bceloss或改进的函数作为损失函数。

27、一种基于时空知识融合与模型动态集成的视频单目标跟踪方法，所述方法包括以下步骤：

28、步骤s6，基于根据实时获得的跟踪视频中的检测样本调适权利要求1所述的一种基于时空知识融合与模型动态集成的视频单目标跟踪模型的网络参数，同时设置变量nf的初始值为1，nf表示当前帧的序号，所述检测样本是指在基于时空知识融合与模型动态集成的视频单目标跟踪中用于测试模型的视频帧；

29、步骤s7，将调适后的模型用于新的视频目标跟踪，获得跟踪视频中的当前帧图像的分类预测概率，所述分类预测概率值分为前景类概率值和背景类概率值，将属于所述前景类概率值最大的5个候选目标区域的位置和宽度高度的均值作为目标预测结果；

30、步骤s8，判断当前帧是否为最后一帧，若是则结束跟踪，若不是则继续执行后续步骤进行目标跟踪；

31、步骤s9，收集检测样本提取并保存特征，在当前帧中根据目标预测结果利用粒子滤波器生成正负类样本框区域，将整帧图像输入到第一部分网络中，如果分类预测概率的最大前景类概率值大于0.6，则利用roialign层分离出正负类样本区域特征进行保存；利用掩码将roialign层映射得到的正负类区域特征屏蔽，形成带掩膜的全局特征并保存，生成样本的时空知识信息并保存；

32、步骤s10，更新网络模型，如果分类预测概率的最大前景类概率值不大于0.6，创建与步骤s4中用于分类的卷积神经网络模型具有相同结构的辅助决策网络模型，如果已创建则重新初始化该辅助决策网络模型的参数，从当前帧往前至多5帧中分别选取一部分在跟踪过程中所保存的带掩膜的全局正负样本特征，利用所述全本文档来自技高网...

【技术保护点】

1.一种基于时空知识融合与模型动态集成的视频单目标跟踪模型构建方法，其特征在于，所述构建方法包括以下步骤：

2.根据权利要求1所述的一种基于时空知识融合与模型动态集成的视频单目标跟踪模型构建方法，其特征在于，所述步骤S2具体包括：

3.根据权利要求1所述的一种基于时空知识融合与模型动态集成的视频单目标跟踪模型构建方法，其特征在于，所述步骤S3具体包括：

4.根据权利要求1所述的一种基于时空知识融合与模型动态集成的视频单目标跟踪模型构建方法，其特征在于，所述步骤S4具体包括：

5.一种基于时空知识融合与模型动态集成的视频单目标跟踪方法，其特征在于，所述方法包括以下步骤：

6.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-4中任一所述的一种基于时空知识融合与模型动态集成的视频单目标跟踪模型构建方法或者权利要求5所述的一种基于时空知识融合与模型动态集成的视频单目标跟踪方法。

7.一种非临时性计算机可读存储介质，其上存储

...

【技术特征摘要】

1.一种基于时空知识融合与模型动态集成的视频单目标跟踪模型构建方法，其特征在于，所述构建方法包括以下步骤：

2.根据权利要求1所述的一种基于时空知识融合与模型动态集成的视频单目标跟踪模型构建方法，其特征在于，所述步骤s2具体包括：

3.根据权利要求1所述的一种基于时空知识融合与模型动态集成的视频单目标跟踪模型构建方法，其特征在于，所述步骤s3具体包括：

4.根据权利要求1所述的一种基于时空知识融合与模型动态集成的视频单目标跟踪模型构建方法，其特征在于，所述步骤s4具体包括：

5.一种基于时空知识融合与模型动态集成的视频单目标跟踪方法，其特征在于，所述方法包...

【专利技术属性】
技术研发人员：冯平，陈旭，向丽，刘敏，蒋合领，
申请(专利权)人：贵州财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人