【技术实现步骤摘要】
一种轻量型的多人姿态跟踪方法
[0001]本专利技术涉及一种轻量化进行多人姿态跟踪的方法。
技术背景
[0002]作为人工智能范畴最重要的前沿分支之一的机器视觉技术在深度学习强大的表示学习的能力、高超的GPU并行计算能力以及海量的带标签数据资源的加持下在人机协同、模式识别等诸多领域得到了广泛的应用研究,与之相关的一个重要研究方向是对基于视频的多人姿态跟踪进行研究。目前大多数的多目标跟踪模型都是遵循本质上目标检测和目标跟踪相剥离的tracking
‑
by
‑
detection范式或者joint detection and tracking范式设计而成,研发一种联合检测和跟踪的端到端的多目标跟踪模型能使得目标检测结果与目标跟踪结果相辅相成,得到更优的识别效果。此外,视频数据比图像数据多了时间维度的信息,这也使得基于视频的多人姿态跟踪模型的计算量更为庞大,所以研发一种轻量型的多人姿态跟踪方法显得格外重要。
技术实现思路
[0003]针对上述问题,本专利技术提出一种轻量型的多人姿态跟踪方法。
[0004]本专利技术首先对传统CenterNet进行了轻量化改进,以此得到轻量化目标检测器,从而快速确定输入的视频帧序列中人体动作的起始帧,以及确定视频画面中人体的位置信息,为后续的轻量化人体姿态跟踪器提供跟踪目标区域。然后构建轻量化多目标跟踪器,该模型主要由数据关联模块和特征传递模块两部分组成,其中先通过数据关联模块中由DLA
‑
34网络和三层3
...
【技术保护点】
【技术特征摘要】
1.一种轻量型的多人姿态跟踪方法,包括如下步骤:步骤一,设计轻量化目标检测器;为了快速确定输入的视频帧序列中人体动作的起始帧,以及确定视频画面中人体的位置信息,为后续的轻量化人体姿态跟踪器提供跟踪目标区域,利用anchor
‑
free和NMS
‑
free的目标检测模型CenterNet对视频帧序列进行目标检测;对CenterNet进行了轻量化改进,包括用轻量化残差密集连接网络LRDN来充当CenterNet的主干网络,修改目标预测机制,为CenterNet的检测头网络增加自适应阈值预测子网络,使得模型在保证检测速度的前提下,能获得更理想的检测精度,满足实际作业中的实时性需求;步骤二,构建轻量化多目标跟踪器;2.1设计基于Re
‑
ID嵌入特征的数据关联模块;假设目标检测器输出的两张视频帧图像分别为I
t
‑1与I
t
,且通过DLA
‑
34网络产生特征图f
t
‑1与f
t
,随即将上述特征图传入由三层3
×
3Conv构成的卷积模块中提取Re
‑
ID嵌入特征,对于f
t
有:e
t
=Φ(f
t
),且其中,e
t
表示提取的Re
‑
ID嵌入特征;Φ(
·
)表示由三层3
×
3Conv构成的卷积模块;然后利用Re
‑
ID嵌入特征来构造代价量,代价量本质上是用来保存两帧特征图上每两个点之间的匹配相似度;其计算步骤有:(a)为了降低计算量,先用最大池化对Re
‑
ID嵌入特征图进行下采样,得到:d
t
=D(e
t
),且其中,d
t
表示提取的下采样特征;D(
·
)表示下采样操作;(b)计算两个特征图I
t
‑1与I
t
上任意两个点之间的相似度矩阵,即代价量,有:且其中,C
ijkl
表示特征图I
t
上的点(i,j)与特征图I
t
‑1上的点(k,l)之间的代价量;接着利用代价量计算跟踪偏移矩阵该矩阵能够存储t时刻视频帧的每个点相对于其在(t
‑
1)时刻的时空位移;对于特征图I
t
上的点(i,j),由代价量的计算方法可得到其对应的二维代价量它代表点(i,j)与特征图I
t
‑1上所有点之间的匹配相似度,利用C
ij
计算得到G
ij
∈R2的步骤有:(T1)分别使用池化核与对C
ij
进行最大池化,然后使用Softmax函数进行标准化,得到向量与与与分别代表点(i,j)在第(t
‑
1)帧某一指定的水平位置与垂直位置的概率大小;(T2)与提供了当前帧的点(i,j)在过去帧上指定位置的概率,为了获取最终的偏移量,先定义了水平与垂直两个方向上的偏移模板分别为与其代表着
点(i,j)在那些位置的实际偏移值,即有:其中,s表示特征图相对于原图的下采样倍率;(T3)将相似度与实际偏移值进行点积运算,即可得到最终的跟踪偏移量G
ij
,有:(T4)已知的维度为因此对其进行倍率等于2的上采样操作,使之变为以用作基于运动指导的特征传递模块的动态信息以及数据关联;对于基于Re
‑
ID嵌入特征的数据关联模块的训练过程,因为只有由三层3
×
3Conv构成的卷积模块Φ(
·
)进行学习,故数据关联模块的优化目标即学习到有效的Re
‑
ID嵌入特征e;为了监督e,很多Re
‑
ID模型会通过损失函数直接对其进行监督,而数据关联模块则通过监督代价量实现此目的,具体实现方法为:当第t帧上处于(i,j)位置的目标点在第(t
‑
1)帧上的(k,l)位置时,令Z
ijkl
=1,否则Z
ijkl
=0;然后采用Focal Loss形式的逻辑回归损失函数来训练数据关联模块,有:其中,β为超参数;由于与是使用Softmax函数进行标准化得到的,如此二者不仅仅包含点(i,j)与点(k,l)之间的相似度,还包含点(i,j)与过去帧上所有点之间的相似度,这就意味着当与被优化到接近1时,它在强制一个目标点接近前一帧中的自己的同时,还排斥其他目标点和图像背景区域;2.2设计基于运动指导的特征传递模块;基于运动指导的特征传递模块主要是用来根据数据关联模块生成的跟踪偏移量G
C
将运动线索从过去帧特征图f
t
‑
τ
变换传递到当前帧以完善、增强特征f
t
;为此,通过单个可变形卷积DCN来实现高效的特征传递,进而聚合传递的特征来增强f
t
;
①
计算传递的特征;首先,利用一层3
×
3Conv对G
C
进行上采样,得到G
D
;设为DCN两个方向上的输入偏移量,其中K为DCN核的宽度和高度;又考虑到人体姿态估计器是基于目标中心点特征而进行的,所以这里不直接对f
t
‑
τ
进行处理,而是将其与目标检测器(t
‑
τ)时刻产生的目标中心热点图做哈达玛
积运算进行转换,以降低模型后续的计算量;在通道索引q,有:其中,表示哈达玛积运算;接着,通过DCN即可计算得到传递特征(f
′
)
t
‑
τ
为:(f
′
)
t
‑
τ
=DCN[G
D
,(f
*
)
t
‑
τ
],且
②
进行特征增强;鉴于当视频流中的人体被遮挡或者出现运动模糊时,会引发被跟踪目标丢失,此时可以将过去帧传递的特征(f
′
)
t
‑
τ
融合到当前帧来增强特征f
t
,这样被遮挡的或者模糊的目标能变得清晰易读;设增强后的特征为(f0)
t
,它通过加权求和得到,其中,为第t帧的自适应权重,由两层卷积加Softmax函数预测得到,且T表示用于聚合的过去帧数量;增强后的特征(f0)
t
将被用于后续的检测头网络,对于人体目标,其在轻量化人体姿态估计器的辅助下生成人体关键点提取结果,以完成检测、跟踪任务;
③
设计损失函数;对于多目标跟踪器的总体损失函数L有:L=L
DAM
+L
det
ꢀꢀ
(10)其中,L
DAM
为数据关联模块的损失函数;L
det
为检测头网络的损失函数;2.3生成轨迹;对于t帧上处于位置(m,n)的检测框M,首先将其与(t
‑
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。