一种轻量型的多人姿态跟踪方法技术

技术编号:34106620 阅读:23 留言:0更新日期:2022-07-12 00:34
一种轻量型的多人姿态跟踪方法,包括如下步骤:步骤一,设计轻量化目标检测器;步骤二,构建轻量化多目标跟踪器;步骤三,搭建轻量化人体姿态估计器;步骤四,将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联;步骤五,对模型进行训练及测试。本发明专利技术在保证检测速度的前提下,获得更理想的检测精度,满足实际作业中的实时性需求;改善目标部分遮挡、运动模糊等情况下的目标检测质量,继而获得更好的跟踪效果;获取跟踪目标人体的边界框位置信息的同时检测人体各个关键点的位置,实现对多人姿态的轻量化跟踪。态的轻量化跟踪。态的轻量化跟踪。

【技术实现步骤摘要】
一种轻量型的多人姿态跟踪方法


[0001]本专利技术涉及一种轻量化进行多人姿态跟踪的方法。
技术背景
[0002]作为人工智能范畴最重要的前沿分支之一的机器视觉技术在深度学习强大的表示学习的能力、高超的GPU并行计算能力以及海量的带标签数据资源的加持下在人机协同、模式识别等诸多领域得到了广泛的应用研究,与之相关的一个重要研究方向是对基于视频的多人姿态跟踪进行研究。目前大多数的多目标跟踪模型都是遵循本质上目标检测和目标跟踪相剥离的tracking

by

detection范式或者joint detection and tracking范式设计而成,研发一种联合检测和跟踪的端到端的多目标跟踪模型能使得目标检测结果与目标跟踪结果相辅相成,得到更优的识别效果。此外,视频数据比图像数据多了时间维度的信息,这也使得基于视频的多人姿态跟踪模型的计算量更为庞大,所以研发一种轻量型的多人姿态跟踪方法显得格外重要。

技术实现思路

[0003]针对上述问题,本专利技术提出一种轻量型的多人姿态跟踪方法。
[0004]本专利技术首先对传统CenterNet进行了轻量化改进,以此得到轻量化目标检测器,从而快速确定输入的视频帧序列中人体动作的起始帧,以及确定视频画面中人体的位置信息,为后续的轻量化人体姿态跟踪器提供跟踪目标区域。然后构建轻量化多目标跟踪器,该模型主要由数据关联模块和特征传递模块两部分组成,其中先通过数据关联模块中由DLA

34网络和三层3
×
3Conv构成的特征提取网络逐点提取Re

ID嵌入特征来构造代价量;然后利用代价量推测跟踪目标的偏移距离,此处获取的跟踪偏移量会把图中的所有特征整合并用于数据关联;接着通过构造基于运动指导的特征传递模块把跟踪偏移量视为运动线索将目标特征从前一帧传递到当前帧,被传递的特征会与当前帧的特征进行合并,以此提高当前的目标检测特征,实现通过目标跟踪信息来指导检测,检测结果有效地反馈给跟踪器的目的;最后将增强后的特征传入检测头网络,检测头网络由目标中心预测子网络、中心点偏移预测子网络、边界框预测子网络以及位移预测子网络四部分组成,其中目标中心预测子网络输出关键点热点图用于预测目标中心点可当作目标关键点的概率,中心点偏移预测子网络输出中心点由于下采样而带来的局部位置信息的偏移误差,边界框预测子网络输出预测目标对象的尺寸,而位移预测子网络则用以数据关联,即用来计算当前帧与过去帧之间的时空位移。接着搭建轻量化人体姿态估计器,这里使用自上而下的人体关键点检测算法,即先利用目标检测模型得到精确的人体边界框,然后采用基于目标中心点的人体关键点检测方法来定位目标人体的关键点。紧接着将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联,把目标检测器输出的视频帧图像作为模型的输入,得到每一帧图像中每个人体的13个关键点坐标值,实现对人体姿态的跟踪。最后使用训练集对模型进行训练,根据损失函数的收敛情况来调试模型的参数,防止梯度震荡,使用测试集对模型进行测试,判断模型
的识别精度和识别速度,循环往复,完成模型的学习与修改,得到鲁棒性强的模型。
[0005]为了实现上述目的,本专利技术采用以下技术方案:
[0006]一种轻量型的多人姿态跟踪方法,包括如下步骤:
[0007]步骤一,设计轻量化目标检测器;
[0008]为了快速确定输入的视频帧序列中人体动作的起始帧,以及确定视频画面中人体的位置信息,为后续的轻量化人体姿态跟踪器提供跟踪目标区域,本专利技术利用anchor

free和NMS

free的目标检测模型CenterNet对视频帧序列进行目标检测。因为现实场景中的大多数视频帧图像存在背景复杂度高、相同画面以及不同画面中目标尺寸变化大等特点,又因为传统CenterNet对不同类别的目标对象共享局部位置偏移特征图与尺寸特征图,导致同一张特征图不得不学习数个量级的期望值,增添了网络的训练难度。为此,本专利技术对CenterNet进行了轻量化改进,主要包括用轻量化残差密集连接网络LRDN来充当CenterNet的主干网络,修改目标预测机制,为CenterNet的检测头网络增加自适应阈值预测子网络,使得模型在保证检测速度的前提下,可以获得更理想的检测精度,满足实际作业中的实时性需求。
[0009]步骤二,构建轻量化多目标跟踪器;
[0010]2.1设计基于Re

ID嵌入特征的数据关联模块;
[0011]假设目标检测器输出的两张视频帧图像分别为I
t
‑1与I
t
,且它们通过DLA

34网络产生特征图f
t
‑1与f
t
,随即将上述特征图传入由三层3
×
3Conv构成的卷积模块中提取Re

ID嵌入特征,对于f
t
有:
[0012]e
t
=Φ(f
t
),且
[0013]其中,e
t
表示提取的Re

ID嵌入特征;Φ(
·
)表示由三层3
×
3Conv构成的卷积模块。
[0014]然后利用Re

ID嵌入特征来构造代价量,代价量本质上是用来保存两帧特征图上每两个点之间的匹配相似度。其计算步骤有:
[0015](a)为了降低计算量,先用最大池化对Re

ID嵌入特征图进行下采样,得到:
[0016]d
t
=D(e
t
),且
[0017]其中,d
t
表示提取的下采样特征;D(
·
)表示下采样操作。
[0018](b)计算两个特征图I
t
‑1与I
t
上任意两个点之间的相似度矩阵,即代价量,有:
[0019]且
[0020]其中,C
ijkl
表示特征图I
t
上的点(i,j)与特征图I
t
‑1上的点(k,l)之间的代价量。
[0021]接着利用代价量计算跟踪偏移矩阵该矩阵能够存储t时刻视频帧的每个点相对于其在(t

1)时刻的时空位移。对于特征图I
t
上的点(i,j),由代价量的计算方法可得到其对应的二维代价量它代表点(i,j)与特征图I
t
‑1上所有点之间的匹配相似度,利用C
ij
计算得到G
ij
∈R2的步骤有:
[0022](T1)分别使用池化核与对C
ij
进行最大池化,然后使用Softmax函数进行标准化,得到向量与与与分别代表点(i,j)在第(t

1)帧某一指定的水平位置与垂直位置的概率大小。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种轻量型的多人姿态跟踪方法,包括如下步骤:步骤一,设计轻量化目标检测器;为了快速确定输入的视频帧序列中人体动作的起始帧,以及确定视频画面中人体的位置信息,为后续的轻量化人体姿态跟踪器提供跟踪目标区域,利用anchor

free和NMS

free的目标检测模型CenterNet对视频帧序列进行目标检测;对CenterNet进行了轻量化改进,包括用轻量化残差密集连接网络LRDN来充当CenterNet的主干网络,修改目标预测机制,为CenterNet的检测头网络增加自适应阈值预测子网络,使得模型在保证检测速度的前提下,能获得更理想的检测精度,满足实际作业中的实时性需求;步骤二,构建轻量化多目标跟踪器;2.1设计基于Re

ID嵌入特征的数据关联模块;假设目标检测器输出的两张视频帧图像分别为I
t
‑1与I
t
,且通过DLA

34网络产生特征图f
t
‑1与f
t
,随即将上述特征图传入由三层3
×
3Conv构成的卷积模块中提取Re

ID嵌入特征,对于f
t
有:e
t
=Φ(f
t
),且其中,e
t
表示提取的Re

ID嵌入特征;Φ(
·
)表示由三层3
×
3Conv构成的卷积模块;然后利用Re

ID嵌入特征来构造代价量,代价量本质上是用来保存两帧特征图上每两个点之间的匹配相似度;其计算步骤有:(a)为了降低计算量,先用最大池化对Re

ID嵌入特征图进行下采样,得到:d
t
=D(e
t
),且其中,d
t
表示提取的下采样特征;D(
·
)表示下采样操作;(b)计算两个特征图I
t
‑1与I
t
上任意两个点之间的相似度矩阵,即代价量,有:且其中,C
ijkl
表示特征图I
t
上的点(i,j)与特征图I
t
‑1上的点(k,l)之间的代价量;接着利用代价量计算跟踪偏移矩阵该矩阵能够存储t时刻视频帧的每个点相对于其在(t

1)时刻的时空位移;对于特征图I
t
上的点(i,j),由代价量的计算方法可得到其对应的二维代价量它代表点(i,j)与特征图I
t
‑1上所有点之间的匹配相似度,利用C
ij
计算得到G
ij
∈R2的步骤有:(T1)分别使用池化核与对C
ij
进行最大池化,然后使用Softmax函数进行标准化,得到向量与与与分别代表点(i,j)在第(t

1)帧某一指定的水平位置与垂直位置的概率大小;(T2)与提供了当前帧的点(i,j)在过去帧上指定位置的概率,为了获取最终的偏移量,先定义了水平与垂直两个方向上的偏移模板分别为与其代表着
点(i,j)在那些位置的实际偏移值,即有:其中,s表示特征图相对于原图的下采样倍率;(T3)将相似度与实际偏移值进行点积运算,即可得到最终的跟踪偏移量G
ij
,有:(T4)已知的维度为因此对其进行倍率等于2的上采样操作,使之变为以用作基于运动指导的特征传递模块的动态信息以及数据关联;对于基于Re

ID嵌入特征的数据关联模块的训练过程,因为只有由三层3
×
3Conv构成的卷积模块Φ(
·
)进行学习,故数据关联模块的优化目标即学习到有效的Re

ID嵌入特征e;为了监督e,很多Re

ID模型会通过损失函数直接对其进行监督,而数据关联模块则通过监督代价量实现此目的,具体实现方法为:当第t帧上处于(i,j)位置的目标点在第(t

1)帧上的(k,l)位置时,令Z
ijkl
=1,否则Z
ijkl
=0;然后采用Focal Loss形式的逻辑回归损失函数来训练数据关联模块,有:其中,β为超参数;由于与是使用Softmax函数进行标准化得到的,如此二者不仅仅包含点(i,j)与点(k,l)之间的相似度,还包含点(i,j)与过去帧上所有点之间的相似度,这就意味着当与被优化到接近1时,它在强制一个目标点接近前一帧中的自己的同时,还排斥其他目标点和图像背景区域;2.2设计基于运动指导的特征传递模块;基于运动指导的特征传递模块主要是用来根据数据关联模块生成的跟踪偏移量G
C
将运动线索从过去帧特征图f
t

τ
变换传递到当前帧以完善、增强特征f
t
;为此,通过单个可变形卷积DCN来实现高效的特征传递,进而聚合传递的特征来增强f
t


计算传递的特征;首先,利用一层3
×
3Conv对G
C
进行上采样,得到G
D
;设为DCN两个方向上的输入偏移量,其中K为DCN核的宽度和高度;又考虑到人体姿态估计器是基于目标中心点特征而进行的,所以这里不直接对f
t

τ
进行处理,而是将其与目标检测器(t

τ)时刻产生的目标中心热点图做哈达玛
积运算进行转换,以降低模型后续的计算量;在通道索引q,有:其中,表示哈达玛积运算;接着,通过DCN即可计算得到传递特征(f

)
t

τ
为:(f

)
t

τ
=DCN[G
D
,(f
*
)
t

τ
],且

进行特征增强;鉴于当视频流中的人体被遮挡或者出现运动模糊时,会引发被跟踪目标丢失,此时可以将过去帧传递的特征(f

)
t

τ
融合到当前帧来增强特征f
t
,这样被遮挡的或者模糊的目标能变得清晰易读;设增强后的特征为(f0)
t
,它通过加权求和得到,其中,为第t帧的自适应权重,由两层卷积加Softmax函数预测得到,且T表示用于聚合的过去帧数量;增强后的特征(f0)
t
将被用于后续的检测头网络,对于人体目标,其在轻量化人体姿态估计器的辅助下生成人体关键点提取结果,以完成检测、跟踪任务;

设计损失函数;对于多目标跟踪器的总体损失函数L有:L=L
DAM
+L
det
ꢀꢀ
(10)其中,L
DAM
为数据关联模块的损失函数;L
det
为检测头网络的损失函数;2.3生成轨迹;对于t帧上处于位置(m,n)的检测框M,首先将其与(t

【专利技术属性】
技术研发人员:张烨陈威慧
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1