一种基于Transformer的轻量化目标跟踪数据标注方法技术

技术编号:37152869 阅读:20 留言:0更新日期:2023-04-06 22:10
本发明专利技术属于机器学习、单目标视觉跟踪、视频目标标注领域,提供了一种基于Transformer模型、泛化性较强的轻量化视频自动标注方法,具体为一种基于Transformer的轻量化目标跟踪数据标注方法。本发明专利技术与具体的跟踪算法解耦,初始标注可以使用任意轻量化跟踪算法,具有较强的泛化性,简化了标注流程,同时提高了标注速度。本发明专利技术使用Transformer模型处理时序信息,采用双向时序信息融合、运动及外观信息结合的方式,提高了网络对于困难帧的预测成功率以及目标边界框坐标回归的准确度,使自动标注质量得到明显的提升。标注网络轻量化的结构设计进一步降低了标注工作的时间成本。计进一步降低了标注工作的时间成本。计进一步降低了标注工作的时间成本。

【技术实现步骤摘要】
一种基于Transformer的轻量化目标跟踪数据标注方法


[0001]本专利技术属于机器学习、单目标视觉跟踪、视频目标标注领域,涉及轻量化单目标跟踪算法HCAT、互相关算法、注意力机制。

技术介绍

[0002]单目标视觉跟踪作为计算机视觉领域的基础研究之一,近年来已有了显著的进展,其要求跟踪算法在一系列视频帧中确定跟踪目标的坐标位置。现有的各类型跟踪算法已在各个跟踪数据集上展现出鲁棒的跟踪性能,如SiamRPN++、Ocean、BTCF、ATOM等。这些跟踪算法多是基于深度模型,需要大规模的有精确目标框标注的视频数据用于训练以保证模型的高性能跟踪。然而,人工逐帧标注目标框会耗费大量的人力资源和时间成本,现有的可用于跟踪模型训练的大规模视频数据集仍然存在很大的缺口,成为跟踪性能进一步提升的瓶颈之一。因此高效地生成高质量的大规模视频数据标注仍是该领域亟需解决的问题。
[0003]为减轻视频标注的人力和时间成本,目前已有若干方法尝试实现视频的自动目标框标注。现有方案的基本思路通常是首先稀疏标注视频序列的若干关键帧,再通过插值的方式去自动补全其他帧的目标框。其中,插值方式主要分为三类。第一类是基于几何信息的线性插值,如LabelMe(Jenny Yuen等,Labelme video:Building a video database with human annotations)。该类方法假定目标运动模式单一,仅依据目标的几何线索来获取其他帧的目标标注。第二类是基于视觉信息的复杂插值,如VATIC(Carl Vondrick等,Efficiently scaling up video annotation with crowdsourced marketplaces)通过提取目标实体的视觉特征,利用更复杂的动态插值方式生成目标标注。第三类是基于现有跟踪算法的插值,如TrackingNet每隔1秒标注1帧,在此基础上利用跟踪器STAPLECA(Matthias Mueller等,Context

aware correlation filter tracking)获得最终的视频目标标注。
[0004]上述方法均未考虑标注的校正问题。当面对复杂的跟踪场景时,例如目标运动模式复杂、存在干扰物、背景复杂或目标被局部遮挡等,现有的跟踪器及其他插值方式均有可能导致标注结果不可靠。设计有效的标注质量评估模块,并对自动生成的标注进行人工校正,将进一步提升自动标注的准确性和可靠性。针对这一问题,VASR(Kenan Dai等,Video annotation for visual tracking via selection and refinement)提出了一个全新的基于选择和细化的自动标注流程,其中选择模块用于对前向和反向的跟踪结果进行质量评估,根据跟踪结果的分数选择最终的目标标注,并筛选出跟踪错误的帧进行人工校正。细化模块则引入了几何参数预测模型来生成更准确的目标框标注,能够有效提升标注质量。
[0005]时序信息是视频标注任务中不可忽视的一部分。为了得到高质量的目标边界框,标注者或自动标注算法需要关注相邻帧间目标的外观及位置变化。Transformer模型由于其强大的全局语义信息捕获能力,被广泛应用于序列任务中。目前,Transformer模型被发掘具有处理视觉信息的潜力,正逐步取代卷积神经网络,被应用于计算机视觉的各个领域。

技术实现思路

[0006]本专利技术旨在提供一种基于Transformer模型、泛化性较强的轻量化视频自动标注方法,解决现有自动标注算法深度依赖特定跟踪器的问题,同时对标注质量较低、标注速度较慢等问题进行一定程度的解决。
[0007]本专利技术所述方法可在大规模数据集标注过程中进行简洁高效的视频目标自动标注工作。
[0008]本专利技术的技术方案为:
[0009]一种基于Transformer模型、泛化性较强的轻量化视频自动标注方法,步骤如下:
[0010]步骤1:对待标注视频序列进行人工稀疏标注,即采用人工的方式,每隔30帧进行一次目标边界框的标注,得到部分人工初始标注(目标边界框坐标),占总帧数的3.3%;
[0011]步骤2:利用轻量化跟踪算法HCAT,进行前向和反向跟踪,跟踪结果包含除3.3%人工标注帧外剩余96.7%帧的目标边界框坐标。将3.3%人工标注帧的边界框和96.7%跟踪器识别帧的边界框作为待标注视频序列完整的初始标注;具体为:
[0012]轻量化跟踪算法HCAT主要由特征提取网络、特征融合网络和预测网络构成;特征提取网络的基础模块参考ResNet18,移除ResNet18的最后一个阶段,卷积模块进行堆叠加深网络深度,使用步长为2的卷积层进行特征提取并进行下采样,构建出下采样16倍的特征图;跟踪时,首先从待跟踪帧中裁剪出搜索区域(基于待跟踪帧上一帧中的目标位置进行裁剪,其中上一帧的目标位置在上一帧完成跟踪时已经获得),再根据每30帧中第一帧的人工标注边界框从对应的图片中裁剪出模板区域。将模板区域和搜索区域分别输入特征提取网络得到模板区域和搜索区域所对应的特征图,再使用特征融合网络对两幅特征图进行融合以得到携带目标外观信息和位置信息的融合特征图;基于融合特征图,使用预测网络预测置信分数与目标框回归坐标,得到当前帧待跟踪目标边界框;
[0013]在使用轻量化跟踪算法HCAT进行前向和反向跟踪的过程中,将步骤1中3.3%的人工稀疏标注帧作为模板帧,使用HCAT对其后的29帧进行跟踪以得到剩余96.7%帧的目标边界框;所得到的前向跟踪结果和反向跟踪结果和3.3%的人工标注共同作为初始标注,后续步骤的标注算法在初始标注的基础上进行困难帧选择和正常帧再优化;
[0014]步骤3:根据前向和反向初始标注,对待标注图片进行裁剪得到前向和反向搜索区域。
[0015]步骤4:将经过裁剪的前、反向待标注图片和对应初始标注以20帧的长度为一组,输入质量分数评估网络进行困难帧筛选。具体为:
[0016]上述质量分数评估网络由目标多维度特征提取模块、Transformer时序特征融合模块和预测模块构成。质量分数的评估过程如下:
[0017](1)将一组(20帧)前向、反向搜索区域和模板区域分别输入较为轻量的骨干网络ResNet18,进行8倍下采样得到前向、反向特征图和模板特征图:
[0018][0019]其中,表示第j帧待标注图片所对应的前、反向特征图,T表示每组输入包含连续T帧搜索区域。使前、反向特征图分别与模板特征进行互相关操作得到前、反向响应图M
f/b
。并减少计算量,实现轻量化设计,响应图将输入响应图网络,前、反向响应图经过由三
个卷积层组成的响应图网络处理后得到前向、反向视觉特征:
[0020][0021]其中d
v
表示视觉特征向量的维度,R表示实数。同时,前反向搜索区域对应的目标边界框坐标经过运动线性层的处理得到前向、反向运动特征
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的轻量化目标跟踪数据标注方法,其特征在于,步骤如下:步骤1:对待标注视频序列帧进行人工稀疏标注,即采用人工的方式,每隔30帧进行一次目标边界框的标注,得到部分人工初始标注即目标边界框坐标,占总帧数的3.3%;步骤2:利用轻量化跟踪算法HCAT,进行前向和反向跟踪,跟踪结果包含除3.3%人工初始标注帧外剩余96.7%帧的目标边界框坐标;将3.3%人工初始标注帧的边界框和96.7%跟踪器识别帧的边界框作为待标注视频序列完整的初始标注;具体为:轻量化跟踪算法HCAT主要由特征提取网络、特征融合网络和预测网络构成;特征提取网络的基础模块参考ResNet18,移除ResNet18的最后一个阶段,卷积模块进行堆叠加深网络深度,使用步长为2的卷积层进行特征提取并进行下采样,构建出下采样16倍的特征图;跟踪时,首先从待跟踪帧中裁剪出搜索区域:基于待跟踪帧上一帧中的目标位置进行裁剪,其中上一帧的目标位置在上一帧完成跟踪时已经获得,再根据每30帧中第一帧的人工标注边界框从对应的图片中裁剪出模板区域;将模板区域和搜索区域分别输入特征提取网络得到模板区域和搜索区域所对应的特征图,再使用特征融合网络对两幅特征图进行融合以得到携带目标外观信息和位置信息的融合特征图;基于融合特征图,使用预测网络预测置信分数与目标框回归坐标,得到当前帧待跟踪目标边界框;在使用轻量化跟踪算法HCAT进行前向和反向跟踪的过程中,将步骤1中3.3%的人工初始标注帧作为模板帧,使用轻量化跟踪算法HCAT对其后的29帧进行跟踪以得到剩余96.7%帧的目标边界框坐标;所得到的前向和反向跟踪结果和3.3%的人工初始标注共同作为初始标注,后续步骤的标注算法在初始标注的基础上进行困难帧选择和正常帧再优化;步骤3:根据前向和反向初始标注,对待标注图片进行裁剪得到前向和反向搜索区域;步骤4:将经过裁剪得到的前向和反向搜索区域和对应初始标注以20帧的长度为一组,输入质量分数评估网络进行困难帧筛选;具体为:质量分数评估网络主要由目标多维度特征提取...

【专利技术属性】
技术研发人员:王栋袁永胜赵洁卢湖川
申请(专利权)人:大连理工大学宁波研究院大连维视科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1