一种基于条件化早退机制的动态推理路径目标跟踪方法技术

技术编号:37077821 阅读:20 留言:0更新日期:2023-03-29 19:54
本发明专利技术属于机器学习、视觉目标跟踪领域,提供了一种基于条件化早退机制的动态推理路径目标跟踪方法。本发明专利技术的目标跟踪器使用MAE预训练的ViT结构作为特征提取主干,同时在不同的编码器层设置多个早退决策点,用于动态路径推理,在保证跟踪结果高准确性的同时,为不同的视频帧动态选择不同的推理路径,大大节省了在简单样本帧上推理的计算量,提高了跟踪方法的实际速度。另外,本发明专利技术可以部署在不同算力的设备上,只需要训练一次,之后的实际部署可以根据场景边缘设备的算力等条件灵活设置决策边界以满足实际应用中对算法性能和速度的权衡。的权衡。的权衡。

【技术实现步骤摘要】
一种基于条件化早退机制的动态推理路径目标跟踪方法


[0001]本专利技术属于深度学习、视觉目标跟踪领域,涉及视觉transformer特征提取模型,条件化早退机制,动态推理网络。

技术介绍

[0002]目标跟踪(visual object tracking)是计算机视觉(CV)领域的一个重要分支,其主要任务是:在初始帧中指定任意目标,算法将根据指定的目标在后续视频帧中准确地跟踪目标的位置,同时预测目标的尺度大小输出目标的边界框,进而实现对目标存在、位置和运动状态等行为理解,支撑更多高级任务的完成。Siamese系列跟踪算法引发了较多的关注,其中由Luca等人提出的SiamFC跟踪器(Fully

Convolutional Siamese Networks for Object Tracking)是该系列方法先驱工作的代表。近年来,特别是更多更强大的特征提取主干网络的引入,注意力机制的运用,在线训练模块和级联结构的注入,进一步促进了目标跟踪算法的进步。目标跟踪的视频来源可以是监控摄像头获得的视频片段,比赛直播的实时视频流等。目标跟踪算法主要包含视频帧提取与预处理,搜索区域提取,目标特征提取与交互跟踪,目标位置的回归预测等步骤。其中,目标特征提取与交互和目标位置回归预测是核心内容,主要对任意类别、任意运动状态的、任意场景下的目标进行持续跟踪。目标跟踪任务主要用精度和速度来衡量一个算法的优劣。
[0003]神经网络早退机制旨在网络推理时动态分配计算组件、计算路径。该类方法通常针对每个不同的输入样本自适应分配不同的网络层、子网络和推理路径等,是高效神经网络计算领域的一个主要研究方向。早退机制进来被运用在图像识别任务中,其主要实现方式是在主干网络中引入级联的中间状态分类器。例如,为了节省计算量,Xin等人开发出SkipNet(Skipnet:Learning dynamic routing in convolutional networks),其在ResNet的基础上探索根据输入样本的不同有选择性地跳过一些残差模块用于图像分类。Andreas等人提出了ConvNet

AIG(Convolutional networks with adaptive inference graphs),该模型在每个残差层都由一个门控函数来决定是执行还是跳过,由此实现基于输入图像调节计算架构。一般的,早退动作的判断条件是输入样本的难易度,并以此为基础进行进一步的动态路径推理分析。然而,目前在早退机制上的研究工作主要集中在基础的图像分类任务中,如何将该思路有效地引入下游更多复杂的、实际应用所需求的任务上,目前还缺乏探索。本专利技术将条件化早退机制运用到具有时空间维度的视频目标跟踪领域,有效提升了目标跟踪算法在实际运行时的效率。

技术实现思路

[0004]本专利技术旨在提供一种高效高性能的基于条件化早退机制的动态推理路径目标跟踪方法,解决现有目标跟踪算法在部署时受到不同应用场景不同运行设备计算能力限制的问题,本专利技术可以根据输入视频序列样本难易度的不同自适应地调整推理路径达到既满足性能要求,又实现高效的目标跟踪。同时,本专利技术提出的方法只需在训练数据上训练一个模
型,对于不同计算性能的设备,可以通过只调整一个决策参数就能实现性能和速度的权衡。本专利技术所述方法可部署在各种实际应用平台如监控设备或无人机机载控制端充当视觉模块进行目标的实时跟踪分析。
[0005]本专利技术的技术方案为:
[0006]一种基于条件化早退机制的动态推理路径目标跟踪方法,步骤如下:
[0007]步骤1:借助摄像机等成像设备获得需要处理的连续视频帧;
[0008]步骤2:输入连续视频流,同时在视频初始帧中指定待跟踪的任意目标;
[0009]用向量B0表示初始目标所在的位置和大小:
[0010][0011]其中,是初始目标中心点所在的位置,(h0,w0)是初始目标的尺度。
[0012]步骤3:根据指定的待跟踪目标,生成模板区域,模板区域是目标边界框的一个向外扩展区域,其中心位置不变,尺度为γ
tem
倍的目标尺度(h0,w0)的几何平均数,这里采用了2倍的γ
tem
值。同时,以给定的初始目标为根据,生成待跟踪帧的搜索区域。根据目标运动轨迹的连续性,搜索区域的中心位置与上一帧的目标中心位置一致(若上一帧是初始帧,则中心位置即为初始帧指定的目标中心位置),搜索区域的尺度为γ
sea
倍的上一帧目标尺度的几何平均数,这里采用了4倍的γ
sea
值。
[0013]步骤4:通过transformer的编码器层提取模板和搜索区域的深度特征;
[0014]Transformer的编码器层取自ViT模型,单个transfomer编码层主要由多头注意力模块(MSA)、层归一化(LN)、前馈网络(FFN)、残差连接等结构组成;多头注意力模块接收维度为768的token输入,该模块先计算出是三个新的矩阵:Query、Key、Value。这三个矩阵是用输入token与一个随机初始化的矩阵相乘得到的。Query和Key相乘,乘以一个缩放常数,再做softmax操作,最后乘上Value矩阵得到自注意力结果。多头注意力机制对上述求自注意力的过程拆分为12次,之后将所有的结果拼接起来作为多头注意力模块的输出;前馈网络主要由一个全连接层,GELU激活函数,Dropout层,全连接层,Dropout层依次组成;
[0015]Transformer编码器层提取模板和搜索区域特征包括以下步骤:
[0016](4.1)输入端处理:将模板和搜索区图像块进行裁剪、填充,缩放等变换,使图像尺寸与网络输入尺寸一致;
[0017](4.2)图像块经过Embedding层,生成token序列。Embedding层采用了768个卷积核的卷积层,大小为16
×
16,步长为16。之后在生成的模板和搜索区和上加入相应的位置编码,并将模板和搜索区token拼接起来:
[0018][0019](4.3)拼接的模板和搜索区特征H经过了N次堆叠的transformer编码器层生成了深度特征H
N

[0020]步骤5:编码后的深度特征H
N
在向后传播的过程中会经过路径决策节点,每个决策节点E
i
都将对当前目标鉴别状态进行判断;
[0021]动态路径推理过程具体包含以下步骤:
[0022](5.1)将步骤(4.3)中堆叠的transformer编码器层作为主干网络,在主干网络中
提取的编码特征当遇到决策点时进入适应层,适应层由transformer编码层组成,其初始化参数加载自步骤(4.3)中主干网络中对应的网络层,具体的,第一组适应层参数加载自主干网络的第3

4层参数,第二组适应层参数加载自主干网络的第7层参数;第一个决策点的适应层为2层,第二个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于条件化早退机制的动态推理路径目标跟踪方法,其特征在于,步骤如下:步骤1:借助成像设备获得需要处理的连续视频流;步骤2:输入连续视频流,同时在视频初始帧中指定待跟踪的初始目标;用向量B0表示初始目标所在的位置和大小:其中,是初始目标中心点所在的位置,(h0,w0)是初始目标的尺度;步骤3:根据指定的待跟踪的初始目标,生成模板区域,模板区域是初始目标边界框的一个向外扩展区域,其中心位置不变,尺度为γ
tem
倍的初始目标尺度(h0,w0)的几何平均数;同时,以给定的初始目标为根据,生成待跟踪帧的搜索区域;根据目标运动轨迹的连续性,搜索区域的中心位置与上一帧的目标中心位置一致;若上一帧是初始帧,中心位置即为初始帧指定的目标中心位置;搜索区域的尺度为γ
sea
倍的上一帧目标尺度的几何平均数;步骤4:通过transformer的编码器层提取模板区域和搜索区域的深度特征;Transformer的编码器层取自ViT模型,单个transfomer编码层主要由多头注意力模块、层归一化、前馈网络和残差连接组成;多头注意力模块接收维度为768的token输入,先计算出是三个新的矩阵:Query、Key、Value;三个新的矩阵是用输入token与一个随机初始化的矩阵相乘得到的;Query矩阵和Key矩阵相乘,乘以一个缩放常数,再做softmax操作,最后乘以Value矩阵得到自注意力结果;多头注意力机制对上述求自注意力的过程拆分为12次,之后将所有的自注意力结果拼接起来作为多头注意力模块的输出;前馈网络主要由一个全连接层、GELU激活函数、Dropout层、全连接层和Dropout层依次连接组成;Transformer的编码器层提取模板区域和搜索区域特征包括以下步骤:(4.1)输入端处理:将模板区域和搜索区域的图像块进行变换,使图像尺寸与网络输入尺寸一致;(4.2)图像块经过Embedding层,生成token序列;Embedding层采用768个卷积核的卷积层,大小为16
×
16,步长为16;之后在生成的模板区域和搜索区域和上加入相应的位置编码,并将模板区域和搜索区域token拼接起来:(4.3)拼接的模板区域和搜索区域特征H0经过N次堆叠的transformer编码器层生成深度特征H
N
;步骤5:编码后的深度特征H
N
在向后传播的过程中会经过路径决策节点,每个决策节点E
i
都将对当前目标鉴别状态进行判断;动态路径推理过程具体包含以下步骤:(5.1)将步骤(4.3)中堆叠的transformer编...

【专利技术属性】
技术研发人员:卢湖川祝嘉文王栋
申请(专利权)人:大连理工大学宁波研究院大连维视科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1