基于知识蒸馏与多任务自监督学习的骨架行为识别方法技术

技术编号:39646239 阅读:9 留言:0更新日期:2023-12-09 11:14
本发明专利技术涉及骨架行为识别技术领域,涉及一种基于知识蒸馏与多任务自监督学习的骨架行为识别方法,包括:

【技术实现步骤摘要】
基于知识蒸馏与多任务自监督学习的骨架行为识别方法


[0001]本专利技术涉及骨架行为识别
,具体地说,涉及一种基于知识蒸馏与多任务自监督学习的骨架行为识别方法


技术介绍

[0002]人体行为识别作为计算机视觉领域内重要分支之一,在实际场景中应用十分广泛,主要包括安防监控

人机交互

体育运动分析等领域,具有重要的现实意义和广阔的社会价值

人体行为识别方法主要是采用
RGB
图像

深度图和骨架序列等模态作为输入,相较于
RGB
和深度图,人体骨架数据包含丰富的体型结构和姿态结构,且不受复杂背景的干扰,具有高度的抽象性

尺度不变性和较低计算成本的优越性等优点,因此基于骨架序列的人体行为识别得到广泛关注和快速发展

虽然现有的监督学习方式的骨架行为识别能达到很高的准确率,但是其需要大量的有标签数据,而数据集的收集会耗费大量的人力,而且有些模型可能已经有过拟合的风险

自监督学习的方法主要分为生成式和对比式,而对比式的自监督学习方法在人体行为识别下游任务中获得了很好的性能

基于自监督对比学习方法认为原始数据本身就具有比稀疏标签所能提供丰富且直接的语言信息,无需知道样本的真实标签,使所有相似的样本聚集在相邻的特征空间区域,而不相似的样本都在不相邻的区域,从而可以很容易地实现下游分类任务

而现有的自监督对比学习方法只是单一任务或者多流融合的方式进行预训练,并没有考虑知识在多任务之间的双向迁移学习,因此,需要一种基于知识蒸馏与多任务自监督对比学习的骨架行为识别方法


技术实现思路

[0003]本专利技术的内容是提供一种基于知识蒸馏与多任务自监督学习的骨架行为识别方法,其提供了基于姿态的骨架序列分割方法和一种结合知识蒸馏与多任务对比学习网络框架,以更加合理的方式训练模型,提升人体行为识别的精度和降低模型的复杂度

[0004]根据本专利技术的基于知识蒸馏与多任务自监督学习的骨架行为识别方法,其包括以下步骤:
[0005](1)
在数据预处理阶段,对采集到的骨架序列通过关节点级的身体分割,分为上半身和下半身两个部分;
[0006](2)
在网络预训练阶段,根据以上两个部分设计出一种多任务自监督对比学习框架,多个任务通过编码网络分别提取特征表示信息,输入到一个跨任务双向知识蒸馏中,通过损失函数来调节样本间的相似度信息;在训练过程中同时保存编码网络的权重参数;
[0007](3)
在网络微调阶段,根据获取到的权重参数对编码网络初始化,结合初始化的编码网络和微调分类网络,构建出动作识别模型,其中微调分类网络包括线性层和
Softmax
函数;
[0008](4)
将待识别的骨架动作序列输入到训练完成的动作识别模型中,由微调分类网络输出分类预测结果

[0009]作为优选,多任务自监督对比学习框架包括数据增强处理

编码网络和一种跨任务双向蒸馏方法

[0010]作为优选,数据增强处理具体为:
[0011]对原始骨架序列分割成上半身和下半身两个部分之后,对这两个部分分别做数据增强处理,从而形成两个不同部分流的多任务学习架构;其中数据增强包括空间关节点裁剪和时序帧裁剪两种方式;
[0012]空间关节点裁剪:是一个特定方向的平移对骨架中每一帧的关节进行平移操作,通过剪切线性映射矩阵以随机角度改变骨架的三维坐标值;矩阵为:
[0013][0014]s
12
,s
13
,s
21
,s
23
,s
31
,s
32
是随机抽取系数;
s
ij

U(

μ
,
μ
)

μ
是剪切振幅,输入的骨架序列与矩阵
S
相乘,在通道维度上改变原始骨架的关节点坐标位置;
[0015]时序帧剪切:首先,对于原始骨架序列
S∈R
C
×
T
×
V
×
M

C
表示通道数,
T
表示骨架序列的总帧数,
V
表示动作的关节点数,
M
表示人的个数;通过填充的方式将
T
分成两部分,然后将这两部分按相反顺序播放,从而生成一个2倍填充长度的骨架序列,将其加入到原始骨架组成一个新骨架序列;最后,从中随机抽取
T
帧,这样输出的序列大小与输入的序列大小相同;这里的填充长度定义为
T/r
,其中
r
是填充率;因此,随机裁剪变换后得到的结果保证了与原始数据分布的相似性

[0016]作为优选,编码网络具体为:
[0017]编码网络包括3层双向
GRU、MLP
层和自注意机制模块,分别用于对数据增强后的样本进行特征提取

特征空间降维以及挖掘特征长时间依赖关系;
[0018]对于输入序列
x
,首先从时空两个不同维度进行数据增强获得正样本对
<x
q
,x
k
>
,从而生成两倍数量的样本,
x
q
表示输入到查询编码器中的正样本视图,
x
k
表示输入到密钥编码器中的正样本视图;然后,采用两个相同的编码器对正样本对
<x
q
,x
k
>
进行特征嵌入操作,映射关系为
z
q

E
q
(x
q
,
θ
q
)

z
k

E
k
(x
k
,
θ
k
)
,其中
E
q

E
k
分别表示查询编码器和密钥编码器,
θ
q

θ
k
是两个编码器的可学习参数,
z
q
表示从查询编码器中输出的特征空间,
z
k
表示从密钥编码器中输出的特征空间;在预训练过程中密钥编码器更新参数引入一种动量更新方式:
θ
k

——
αθ
k
+(1

α
)
θ
q
...

【技术保护点】

【技术特征摘要】
1.
基于知识蒸馏与多任务自监督学习的骨架行为识别方法,其特征在于:包括以下步骤:
(1)
在数据预处理阶段,对采集到的骨架序列通过关节点级的身体分割,分为上半身和下半身两个部分;
(2)
在网络预训练阶段,根据以上两个部分设计出一种多任务自监督对比学习框架,多个任务通过编码网络分别提取特征表示信息,输入到一个跨任务双向知识蒸馏中,通过损失函数来调节样本间的相似度信息;在训练过程中同时保存编码网络的权重参数;
(3)
在网络微调阶段,根据获取到的权重参数对编码网络初始化,结合初始化的编码网络和微调分类网络,构建出动作识别模型,其中微调分类网络包括线性层和
Softmax
函数;
(4)
将待识别的骨架动作序列输入到训练完成的动作识别模型中,由微调分类网络输出分类预测结果
。2.
根据权利要求1所述的基于知识蒸馏与多任务自监督学习的骨架行为识别方法,其特征在于:多任务自监督对比学习框架包括数据增强处理

编码网络和一种跨任务双向蒸馏方法
。3.
根据权利要求2所述的基于知识蒸馏与多任务自监督学习的骨架行为识别方法,其特征在于:数据增强处理具体为:对原始骨架序列分割成上半身和下半身两个部分之后,对这两个部分分别做数据增强处理,从而形成两个不同部分流的多任务学习架构;其中数据增强包括空间关节点裁剪和时序帧裁剪两种方式;空间关节点裁剪:是一个特定方向的平移对骨架中每一帧的关节进行平移操作,通过剪切线性映射矩阵以随机角度改变骨架的三维坐标值;矩阵为:
s
12
,s
13
,s
21
,s
23
,s
31
,s
32
是随机抽取系数;
s
ij

U(

μ
,
μ
)

μ
是剪切振幅,输入的骨架序列与矩阵
S
相乘,在通道维度上改变原始骨架的关节点坐标位置;时序帧剪切:首先,对于原始骨架序列
S∈R
C
×
T
×
V
×
M

C
表示通道数,
T
表示骨架序列的总帧数,
V
表示动作的关节点数,
M
表示人的个数;通过填充的方式将
T
分成两部分,然后将这两部分按相反顺序播放,从而生成一个2倍填充长度的骨架序列,将其加入到原始骨架组成一个新骨架序列;最后,从中随机抽取
T
帧,这样输出的序列大小与输入的序列大小相同;这里的填充长度定义为
T/r
,其中
r
是填充率;因此,随机裁剪变换后得到的结果保证了与原始数据分布的相似性
。4.
根据权利要求3所述的基于知识蒸馏与多任务自监督学习的骨架行为识别方法,其特征在于:编码网络具体为:编码网络包括3层双向
GRU、MLP
层和自注意机制模块,分别用于对数据增强后的样本进行特征提取

特征空间降维以及挖掘特征长时间依赖关系;对于输入序列
x
,首先从时空两个不同维度进行数据增强获得正样本对
<x
q
,x
k
>
,从而生成两倍数量的样本,
x
q
表示输入到查询编码器中的正样本视图,
x
k
表示输入到密钥编码器中
的正样本视图;然后,采用两个相同的编码器对正样本对
<x
q
,x
k
>
进行特征嵌入操作,映射关系为
z
q

E
q
(x
q
,
θ
q
)

z
k

E
k
(x
k
,
θ
k
)
,其中
E
...

【专利技术属性】
技术研发人员:任子良杨怀港袁华强魏文红赵铁柱
申请(专利权)人:东莞理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1