【技术实现步骤摘要】
一种基于Transformer的轻量化目标跟踪数据标注方法
[0001]本专利技术属于机器学习、单目标视觉跟踪、视频目标标注领域,涉及轻量化单目标跟踪算法HCAT、互相关算法、注意力机制。
技术介绍
[0002]单目标视觉跟踪作为计算机视觉领域的基础研究之一,近年来已有了显著的进展,其要求跟踪算法在一系列视频帧中确定跟踪目标的坐标位置。现有的各类型跟踪算法已在各个跟踪数据集上展现出鲁棒的跟踪性能,如SiamRPN++、Ocean、BTCF、ATOM等。这些跟踪算法多是基于深度模型,需要大规模的有精确目标框标注的视频数据用于训练以保证模型的高性能跟踪。然而,人工逐帧标注目标框会耗费大量的人力资源和时间成本,现有的可用于跟踪模型训练的大规模视频数据集仍然存在很大的缺口,成为跟踪性能进一步提升的瓶颈之一。因此高效地生成高质量的大规模视频数据标注仍是该领域亟需解决的问题。
[0003]为减轻视频标注的人力和时间成本,目前已有若干方法尝试实现视频的自动目标框标注。现有方案的基本思路通常是首先稀疏标注视频序列的若干关键帧,再通过 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer的轻量化目标跟踪数据标注方法,其特征在于,步骤如下:步骤1:对待标注视频序列帧进行人工稀疏标注,即采用人工的方式,每隔30帧进行一次目标边界框的标注,得到部分人工初始标注即目标边界框坐标,占总帧数的3.3%;步骤2:利用轻量化跟踪算法HCAT,进行前向和反向跟踪,跟踪结果包含除3.3%人工初始标注帧外剩余96.7%帧的目标边界框坐标;将3.3%人工初始标注帧的边界框和96.7%跟踪器识别帧的边界框作为待标注视频序列完整的初始标注;具体为:轻量化跟踪算法HCAT主要由特征提取网络、特征融合网络和预测网络构成;特征提取网络的基础模块参考ResNet18,移除ResNet18的最后一个阶段,卷积模块进行堆叠加深网络深度,使用步长为2的卷积层进行特征提取并进行下采样,构建出下采样16倍的特征图;跟踪时,首先从待跟踪帧中裁剪出搜索区域:基于待跟踪帧上一帧中的目标位置进行裁剪,其中上一帧的目标位置在上一帧完成跟踪时已经获得,再根据每30帧中第一帧的人工标注边界框从对应的图片中裁剪出模板区域;将模板区域和搜索区域分别输入特征提取网络得到模板区域和搜索区域所对应的特征图,再使用特征融合网络对两幅特征图进行融合以得到携带目标外观信息和位置信息的融合特征图;基于融合特征图,使用预测网络预测置信分数与目标框回归坐标,得到当前帧待跟踪目标边界框;在使用轻量化跟踪算法HCAT进行前向和反向跟踪的过程中,将步骤1中3.3%的人工初始标注帧作为模板帧,使用轻量化跟踪算法HCAT对其后的29帧进行跟踪以得到剩余96.7%帧的目标边界框坐标;所得到的前向和反向跟踪结果和3.3%的人工初始标注共同作为初始标注,后续步骤的标注算法在初始标注的基础上进行困难帧选择和正常帧再优化;步骤3:根据前向和反向初始标注,对待标注图片进行裁剪得到前向和反向搜索区域;步骤4:将经过裁剪得到的前向和反向搜索区域和对应初始标注以20帧的长度为一组,输入质量分数评估网络进行困难帧筛选;具体为:质量分数评估网络主要由目标多维度特征提取...
【专利技术属性】
技术研发人员:王栋,袁永胜,赵洁,卢湖川,
申请(专利权)人:大连理工大学宁波研究院大连维视科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。