当前位置: 首页 > 专利查询>大连理工大学宁波研究院大连维视科技有限公司专利>正文

一种基于Transformer的轻量化目标跟踪数据标注方法技术

技术编号：37152869 阅读：20 留言：0更新日期：2023-04-06 22:10

本发明专利技术属于机器学习、单目标视觉跟踪、视频目标标注领域，提供了一种基于Transformer模型、泛化性较强的轻量化视频自动标注方法，具体为一种基于Transformer的轻量化目标跟踪数据标注方法。本发明专利技术与具体的跟踪算法解耦，初始标注可以使用任意轻量化跟踪算法，具有较强的泛化性，简化了标注流程，同时提高了标注速度。本发明专利技术使用Transformer模型处理时序信息，采用双向时序信息融合、运动及外观信息结合的方式，提高了网络对于困难帧的预测成功率以及目标边界框坐标回归的准确度，使自动标注质量得到明显的提升。标注网络轻量化的结构设计进一步降低了标注工作的时间成本。计进一步降低了标注工作的时间成本。计进一步降低了标注工作的时间成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Transformer的轻量化目标跟踪数据标注方法

[0001]本专利技术属于机器学习、单目标视觉跟踪、视频目标标注领域，涉及轻量化单目标跟踪算法HCAT、互相关算法、注意力机制。

技术介绍

[0002]单目标视觉跟踪作为计算机视觉领域的基础研究之一，近年来已有了显著的进展，其要求跟踪算法在一系列视频帧中确定跟踪目标的坐标位置。现有的各类型跟踪算法已在各个跟踪数据集上展现出鲁棒的跟踪性能，如SiamRPN++、Ocean、BTCF、ATOM等。这些跟踪算法多是基于深度模型，需要大规模的有精确目标框标注的视频数据用于训练以保证模型的高性能跟踪。然而，人工逐帧标注目标框会耗费大量的人力资源和时间成本，现有的可用于跟踪模型训练的大规模视频数据集仍然存在很大的缺口，成为跟踪性能进一步提升的瓶颈之一。因此高效地生成高质量的大规模视频数据标注仍是该领域亟需解决的问题。
[0003]为减轻视频标注的人力和时间成本，目前已有若干方法尝试实现视频的自动目标框标注。现有方案的基本思路通常是首先稀疏标注视频序列的若干关键帧，再通过插值的方式去自动补全其他帧的目标框。其中，插值方式主要分为三类。第一类是基于几何信息的线性插值，如LabelMe(Jenny Yuen等，Labelme video:Building a video database with human annotations)。该类方法假定目标运动模式单一，仅依据目标的几何线索来获取其他帧的目标标注。第二类是基于视觉信息的复杂插值，如VATIC(Carl Vo...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的轻量化目标跟踪数据标注方法，其特征在于，步骤如下：步骤1：对待标注视频序列帧进行人工稀疏标注，即采用人工的方式，每隔30帧进行一次目标边界框的标注，得到部分人工初始标注即目标边界框坐标，占总帧数的3.3％；步骤2：利用轻量化跟踪算法HCAT，进行前向和反向跟踪，跟踪结果包含除3.3％人工初始标注帧外剩余96.7％帧的目标边界框坐标；将3.3％人工初始标注帧的边界框和96.7％跟踪器识别帧的边界框作为待标注视频序列完整的初始标注；具体为：轻量化跟踪算法HCAT主要由特征提取网络、特征融合网络和预测网络构成；特征提取网络的基础模块参考ResNet18，移除ResNet18的最后一个阶段，卷积模块进行堆叠加深网络深度，使用步长为2的卷积层进行特征提取并进行下采样，构建出下采样16倍的特征图；跟踪时，首先从待跟踪帧中裁剪出搜索区域：基于待跟踪帧上一帧中的目标位置进行裁剪，其中上一帧的目标位置在上一帧完成跟踪时已经获得，再根据每30帧中第一帧的人工标注边界框从对应的图片中裁剪出模板区域；将模板区域和搜索区域分别输入特征提取网络得到模板区域和搜索区域所对应的特征图，再使用特征融合网络对两幅特征图进行融合以得到携带目标外观信息和位置信息的融合特征图；基于融合特征图，使用预测网络预测置信分数与目标框回归坐标，得到当前帧待跟踪目标边界框；在使用轻量化跟踪算法HCAT进行前向和反向跟踪的过程中，将步骤1中3.3％的人工初始标注帧作为模板帧，使用轻量化跟踪算法HCAT对其后的29帧进行跟踪以得到剩余96.7％帧的目标边界框坐标；所得到的前向和反向跟踪结果和3.3％的人工初始标注共同作为初始标注，后续步骤的标注算法在初始标注的基础上进行困难帧选择和正常帧再优化；步骤3：根据前向和反向初始标注，对待标注图片进行裁剪得到前向和反向搜索区域；步骤4：将经过裁剪得到的前向和反向搜索区域和对应初始标注以20帧的长度为一组，输入质量分数评估网络进行困难帧筛选；具体为：质量分数评估网络主要由目标多维度特征提取...

【专利技术属性】
技术研发人员：王栋，袁永胜，赵洁，卢湖川，
申请(专利权)人：大连理工大学宁波研究院大连维视科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人