一种面向剧场环境的多演员目标跟踪方法技术

技术编号:26224099 阅读:39 留言:0更新日期:2020-11-04 10:57
本发明专利技术公开了一种面向剧场环境的多演员目标跟踪方法。该方法首先构建并训练目标分类器,以对具有相似特征的演员进行分类;然后将视频帧送入目标检测器中,得到各个演员的检测框;将检测框送入训练好的目标分类器中进行演员ID预测;最后联合目标分类器预测得到的演员ID与轨迹关联算法形成多演员的跟踪轨迹。本发明专利技术在数据关联与轨迹初始化上加入目标类别预测,一定程度上解决了演员ID变化问题;在目标分类器上引入了三元组损失和交叉熵损失相结合的损失函数,增加了分类器对演员表观特征的辨识度;在预处理阶段引入了模板匹配和距离度量的方法,一定程度上解决了剧场、舞台等复杂光照环境对演员识别跟踪的影响,提高了检测、跟踪算法的准确率。

【技术实现步骤摘要】
一种面向剧场环境的多演员目标跟踪方法
本专利技术属于多目标跟踪
,尤其涉及一种面向剧场环境的多演员目标跟踪方法。
技术介绍
多目标跟踪在目前的学术界和工程界均有很广泛的应用,其在商业、安防等领域有着广泛的应用前景,是否能够准确快速的实现特定目标的识别并跟踪决定着算法的优劣。传统的多目标跟踪算法在实际应用中无法达到性能的平衡,在精度和稳定性方面都无法满足实际要求;但基于深度学习的多目标跟踪算法能够很好的满足实际需求。目前的多目标跟踪关联方法大致分为两类,分别为Detection-BasedTracking(DBT)和Detection-FreeTracking(DFT)。如图2所示,对于第一类DBT方法,其核心思想是首先使用目标检测算法检测出多个目标,然后使用数据关联算法将前面检测出来的多个目标关联到各个目标运动轨迹中;此类方法也可被称为“Trackingbydetection”。在具体的视频应用场景中,首先给定一个完整的视频序列,然后对每个视频帧运用目标检测算法得到对应的所有目标的BoundingBox,然后采用数据关联算法,自动初始化各个目标的ID,将视频序列前后帧目标ID值进行连接,最终组成了各个目标的运动轨迹。目前此类方法在学术上应用较为广泛,因为能够实时更新跟踪目标的相关特征,维持跟踪器的稳定性;但DBT方法需要提前训练好目标检测器,跟踪器的性能很大程度上依赖目标检测器的性能。而对于第二类DFT方法,同样对于一个视频序列,此类方法需要在首帧框选多个目标,再通过模板匹配、运动匹配或其他算法在后续帧持续定位这些目标,最终达到多目标跟踪的目的。DFT方法虽然不需要提前训练目标检测器,但其无法在跟踪过程中处理新出现的目标和消失的目标。相比而言,第一类DBT能够处理上述问题,更加适合实际需求。现存的多目标跟踪算法仅限于对多个Benchmark数据集进行测试,暂未完全推广到线下场景,虽然能够满足学术界的要求,但是无法完全应对特殊场景(例如剧场)的多个演员目标进行跟踪。演员目标相当于其他类别的目标识别与跟踪具有表观特征差异小,较难辨别的特点;同时目标遇到遮挡时会造成的ID变化;这些是目前剧场环境下多演员目标跟踪的主要难点。此外,现存的目标跟踪算法在一定程度上依赖原始视频帧的质量,良好的光照条件,画面清晰度等其他要求是保证目标跟踪算法的基础;目前针对光照多变性而提出的改进算法主要分为三类:第一类为采用图像增强的方法对原始图像进行预处理,通过调整原始图像的直方图信息,来期待原始图像能够达到模板帧的效果;第二类为采用不变特征进行图像预处理,例如寻求图像中若干个对光照不变或者光照鲁棒的特征,以此为突破口来进行处理,通过这些特征中的几何特征(例如梯度和尺度)与模板匹配相结合,来进一步约束光照变换带来的影响;第三类为采用场景建模的方式,利用目标形状或者其他有形信息进行建模,利用三维信息对光照变化进行抑制。而面对舞台场景,由于剧场舞台灯光的多变性与场景的复杂性,目前的方案并不能很好的解决实际需求。
技术实现思路
为了解决剧场等特殊场景下的特定演员跟踪困难的问题,本专利技术提供了一种面向剧场环境的多演员目标跟踪方法。本专利技术的目的是通过以下技术方案来实现的:一种面向剧场环境的多演员目标跟踪方法,该方法包括以下步骤:(1)收集特定剧场环境的表演视频数据,将其分解成视频帧图像;(2)采用单目标跟踪算法分割视频帧中各个演员目标图像,并按照演员ID分成P类,每个类存储K张图片,构成演员数据集;(3)构建目标分类网络,网络的损失函数采用三元组损失和交叉熵损失结合的策略,利用步骤(2)制作好的演员数据集对目标分类网络进行训练,得到训练好的目标分类器;(4)将当前帧T送入目标检测器,框选出所有演员目标,采用卡尔曼滤波单目标跟踪器对T帧检测出的各目标分别进行运动预测,得到各目标T+1帧的预测框位置;然后将T+1帧送入目标检测器,将得到的检测框与运动预测得到的预测框位置做交并比(IOU)计算,构成T+1帧对应的IOU矩阵;(5)基于步骤(4)得到的IOU矩阵,若当前帧出现新目标或者原有目标出现丢失,则将T帧框选出的所有目标输入步骤(3)训练好的目标分类器,得到演员ID;并使用匈牙利分配算法基于步骤(4)得到的IOU矩阵进行目标匹配,最后结合目标分类器生成的演员ID,得到各目标的跟踪轨迹。进一步地,所述步骤(1)中,对表演视频数据进行基于直方图匹配的预处理,基于预处理得到的视频帧用于后续多目标跟踪,具体包括以下子步骤:(1.1)在预表演场景中选取若干光照理想的舞台照作为模板帧;(1.2)将选取好的若干模板帧与测试视频帧均下采样到合适尺度,同时按时间序列标定模板帧的顺序;(1.3)将降采样后的当前视频帧与当前模板帧、当前模板帧相邻两帧分别进行直方图匹配,得到三个匹配帧;(1.4)将匹配帧分别与对应模板帧进行KL距离度量运算,选择差异度最小的匹配帧作为预处理得到的视频帧,并将其对应的模板帧作为当前模板帧;(1.5)基于预处理得到的视频帧用于多目标跟踪。进一步地,所述步骤(1.3)具体如下:(1.3.1)确定当前视频帧,按此时该帧出现的时间点与标定过顺序的模板帧索引;(1.3.2)按照在当前帧时间点相邻三个模板帧进行索引选择,然后分别进行匹配操作,最终得到各个模板帧对应的匹配结果。进一步地,所述步骤(1.4)具体如下:(1.4.1)将原始视频帧与相邻三帧的模板帧进行直方图匹配,得到三个相邻匹配帧;(1.4.2)对相邻三个模板帧进行映射处理,即采用512个bin对原有RGB像素值按其频次分布进行排列;(1.4.3)将采取同样映射处理后的三个匹配帧与对应模板帧进行KL距离度量运算,取三个相邻帧度量结果最小的匹配帧作为最佳匹配帧。进一步地,所述步骤(2)包括:对单目标跟踪算法得到的多个演员目标进行在线裁剪到本地、制作标签ID、并规定到统一尺寸,得到原始数据集;将原始数据集采用水平翻转、随机擦除的方法进行数据增强,防止训练出现过拟合现象,最终形成训练目标分类网络所用的演员数据集。进一步地,所述步骤(3)中,所述目标分类网络采用MobileNetV2作为基本网络骨架,在网络骨架的第16层新建一个分支,这个分支的结构是一个简单的全连接层(即常规的全连接层的操作,它的功能就是将16层的卷积特征图三维(width,height,channel)转成一维(widthxheightxchannel);最终输出的是128维的向量);然后将此处得到的全连接层特征接入三元组损失函数,以此来度量各目标演员特征向量之间的相似度;另一个分支则按原有网络结构连接全连接层,最终接入交叉熵损失函数;在训练过程中,将两类损失按照不同权重进行分配求和,最后进行反向传播更新网络参数。进一步地,判断出现新目标及目标出现丢失的标准为:当T-1帧的目标在T帧上运动预测的预测框数目小于T帧的目标检测框时,判定为本文档来自技高网
...

【技术保护点】
1.一种面向剧场环境的多演员目标跟踪方法,其特征在于,包括以下步骤:/n(1)收集特定剧场环境的表演视频数据,将其分解成视频帧图像。/n(2)采用单目标跟踪算法分割视频帧中各个演员目标图像,并按照演员ID分成P类,每个类存储K张图片,构成演员数据集。/n(3)构建目标分类网络,网络的损失函数采用三元组损失和交叉熵损失结合的策略,利用步骤(2)制作好的演员数据集对目标分类网络进行训练,得到训练好的目标分类器。/n(4)将当前帧T送入目标检测器,框选出所有演员目标,采用卡尔曼滤波单目标跟踪器对T帧检测出的各目标分别进行运动预测,得到各目标T+1帧的预测框位置;然后将T+1帧送入目标检测器,将得到的检测框与运动预测得到的预测框位置做交并比(IOU)计算,构成T+1帧对应的IOU矩阵。/n(5)基于步骤(4)得到的IOU矩阵,若当前帧出现新目标或者原有目标出现丢失,则将T帧框选出的所有目标输入步骤(3)训练好的目标分类器,得到演员ID;并使用匈牙利分配算法基于步骤(4)得到的IOU矩阵进行目标匹配,最后结合目标分类器生成的演员ID,得到各目标的跟踪轨迹。/n

【技术特征摘要】
1.一种面向剧场环境的多演员目标跟踪方法,其特征在于,包括以下步骤:
(1)收集特定剧场环境的表演视频数据,将其分解成视频帧图像。
(2)采用单目标跟踪算法分割视频帧中各个演员目标图像,并按照演员ID分成P类,每个类存储K张图片,构成演员数据集。
(3)构建目标分类网络,网络的损失函数采用三元组损失和交叉熵损失结合的策略,利用步骤(2)制作好的演员数据集对目标分类网络进行训练,得到训练好的目标分类器。
(4)将当前帧T送入目标检测器,框选出所有演员目标,采用卡尔曼滤波单目标跟踪器对T帧检测出的各目标分别进行运动预测,得到各目标T+1帧的预测框位置;然后将T+1帧送入目标检测器,将得到的检测框与运动预测得到的预测框位置做交并比(IOU)计算,构成T+1帧对应的IOU矩阵。
(5)基于步骤(4)得到的IOU矩阵,若当前帧出现新目标或者原有目标出现丢失,则将T帧框选出的所有目标输入步骤(3)训练好的目标分类器,得到演员ID;并使用匈牙利分配算法基于步骤(4)得到的IOU矩阵进行目标匹配,最后结合目标分类器生成的演员ID,得到各目标的跟踪轨迹。


2.根据权利要求1所述的一种面向剧场环境的多演员目标跟踪方法,其特征在于,所述步骤(1)中,对表演视频数据进行基于直方图匹配的预处理,基于预处理得到的视频帧用于后续多目标跟踪,具体包括以下子步骤:
(1.1)在预表演场景中选取若干光照理想的舞台照作为模板帧;
(1.2)将选取好的若干模板帧与测试视频帧均下采样到合适尺度,同时按时间序列标定模板帧的顺序;
(1.3)将降采样后的当前视频帧与当前模板帧、当前模板帧相邻两帧分别进行直方图匹配,得到三个匹配帧;
(1.4)将匹配帧分别与对应模板帧进行KL距离度量运算,选择差异度最小的匹配帧作为预处理得到的视频帧,并将其对应的模板帧作为当前模板帧;
(1.5)基于预处理得到的视频帧用于多目标跟踪。


3.根据权利要求2所述的一种面向剧场环境的多演员目标跟踪方法,其特征在于,所述步骤(1.3)具体如下:
(1.3.1)确定当前视频帧,按此时该帧出现的时间点与标定过顺序的模板帧索引;
(1.3.2)按照在当前帧时间点相邻三个模板帧进行索引选择,然后分别进行匹配操作,最终得到各个模板帧对应的匹配结果。


4.根据权利要求2所述的一种面向剧场环境的多演员目标跟踪方法,其特征在于,所述步骤(1.4)具体如下:
(1.4.1)将原始视频帧与相邻三帧的模板帧进行直方图匹配,得到三个相邻匹配帧;
(1.4.2)对相邻三个模板帧进行映射处理,即采用512个bin对原有RGB像素值按其频次分布进行排列;
(1.4.3)将采取同样映射处理后的三个匹配帧与对应模板帧进行KL距离度量运算,取三个相邻帧度量结果最小的匹配帧作为最佳匹配帧。


5.根据权利要求1所述的一种面向剧场环境的多演员目标跟踪方法,其特征在于,所述步骤(2)包括:
对单目标跟踪算法得到的多个演员目标...

【专利技术属性】
技术研发人员:陈书界颜城城张鎏锟
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1