一种时序动作定位方法、装置、设备及存储介质制造方法及图纸

技术编号:38105423 阅读:8 留言:0更新日期:2023-07-06 09:27
本发明专利技术公开了一种时序动作定位方法、装置、设备及存储介质,通过对获取的视频序列进行人体姿态估计,获取视频序列中的关键点序列;提取关键点序列中的时空特征,将提取的时空特征送入浅层神经网络进行投影,变换到嵌入空间;通过若干个编码层组成的编码器使用自注意力机制分别提取时空特征变换后的特征表示,并输出多尺度特征;采用由三层轻量级一维深度可分离卷积网络构成的分类预测头和回归预测头对多尺度特征进行解码,输出动作预测的标签序列。能够提高时序动作定位的准确性。能够提高时序动作定位的准确性。能够提高时序动作定位的准确性。

【技术实现步骤摘要】
一种时序动作定位方法、装置、设备及存储介质


[0001]本专利技术涉及计算机视觉
,尤其涉及一种时序动作定位方法、装置、设备及存储介质。

技术介绍

[0002]近年来随着深度学习的不断发展,相较于传统的由研究者对不同任务针对性地设计样本的特征的方法逐渐被淘汰,使基于深度学习的全监督时序动作定位的研究工作获得了快速发展并获得了优异的性能。
[0003]现有的时序动作定位模型大多还是基于卷积神经网络,但是卷积操作具有很强的归纳偏见,包括局部连接性和平移不变性,当数据集达到一定规模时,这种归纳偏见会限制模型的表达能力,导致模型对于不同尺度的动作识别精度降低。

技术实现思路

[0004]为解决上述技术问题,本专利技术提供一种时序动作定位方法、装置、设备及存储介质,能够提高时序动作定位的准确性。
[0005]本专利技术实施例提供一种时序动作定位方法,所述方法包括:
[0006]对获取的视频序列进行人体姿态估计,获取视频序列中的关键点序列;
[0007]提取关键点序列中的时空特征,将提取的时空特征送入浅层神经网络进行投影,变换到嵌入空间;
[0008]通过若干个编码层组成的编码器使用自注意力机制分别提取时空特征变换后的特征表示,并输出多尺度特征;
[0009]采用由三层轻量级一维深度可分离卷积网络构成的分类预测头和回归预测头对多尺度特征进行解码,输出动作预测的标签序列。
[0010]优选地,在获取视频序列中的关键点序列后,所述方法还包括:
[0011]使用关键点序列生成每一帧的热力图;
[0012]根据每一帧的热力图,得到滤除背景噪声后的关键点序列。
[0013]作为一种优选方案,所述对获取的视频序列进行人体姿态估计,获取视频序列中的关键点序列,具体包括:
[0014]采用人体姿态估计算法提取所述视频序列中的每一帧的关键点集合,所述关键点集合中的关键点包括头部、左手、右手、左肘、右肘、左肩和右肩;
[0015]对于每一当前帧,计算当前帧的关键点集合和前一帧的关键点集合之间的当前距离;
[0016]当计算的当前距离大于预设距离阈值时,采用前一帧的关键点集合更新当前帧的关键点集合;
[0017]当计算的当前距离不大于所述距离阈值时,不更新当前帧的关键点集合;
[0018]完成每一当前帧的关键点集合的前后帧关联匹配,得到所述关键点序列;
[0019]其中,当前距离K
c
为当前帧的关键点集合,K
p
为前一帧的关键点集合,x
a
为当前帧关键点的x轴坐标,y
p
为前一帧关键点的y轴坐标,y
a
为当前帧关键点的y轴坐标。
[0020]优选地,滤除背景噪声后的关键点序列中每一当前帧关键点集合P
a
=P
h
·
P
c

[0021]其中,P
c
为当前帧,P
h
为当前帧的人体热力图;
[0022]当前帧的人体热力图的生成过程具体包括:
[0023]计算关键点序列中每一对相邻关键点之间的距离,并在两点之间均匀采样,得到若干采样点;
[0024]对每个采样点以预设半径建立高斯概率分布,将每一个关键点的中心灰度值,半径和色带均设为相同,得到了当前帧的人体热力图。
[0025]作为一种优选方案,所述提取关键点序列中的时空特征,将提取的时空特征送入浅层神经网络进行投影,变换到嵌入空间,具体包括:
[0026]使用i3d网络提取关键点序列中的时空特征X={X1,X2,...,X
T
},将提取的时空特征送入浅层神经网络进行投影,变换到D维的嵌入空间,得到特征序列Z0;
[0027]其中,X
t
为从i3d网络中提取出时刻t的视频片段的特征向量,t=1,2,...,T,T为最大时刻,D均为正整数。
[0028]优选地,所述编码器相邻编码层间穿插有上采样层和下采样层;
[0029]所述编码器在每一次下采样层的下采样操作之后,通过跳层连接到上采样层进行特征组合;
[0030]所述编码器的上采样层采用2c个1
×
1的卷积核将输入的特征向量并为1
×2×
c大小的特征,完成从低位特征向高位特征的融合;
[0031]所述编码层输出的多尺度特征
[0032]其中,Q,K和V为编码器使用自注意力机制分别提取特征矩阵,Q=Z0W
q
,K=Z0W
k
,V=Z0W
v
,S∈R
T
×
D
,表示多尺度特征S由T个D维的特征片段组成,W
q
,W
k
和W
v
为参数可学习的矩阵,softmax()为激活函数,c为正整数,D
q
为在自注意力机制中q的维度,Z0为特征序列。
[0033]优选地,所述采用由三层轻量级一维深度可分离卷积网络构成的分类预测头和回归预测头对多尺度特征进行解码,输出动作预测的标签序列,具体包括:
[0034]采用所述分类预测头计算所述多尺度特征中每一时刻包含动作实例的概率,得到每一时刻的预测结果
[0035]采用所述回归预测头计算所述多尺度特征中每一时刻的动作实例回归距离动作边界的偏移量;
[0036]采用非极大值抑制操作,搜索局部最大值,将多余的预测结果滤除掉,输出标签序列
[0037]其中,T为最大时刻。
[0038]本专利技术实施例还提供一种时序动作定位装置,所述装置包括:
[0039]姿态估计模块,用于对获取的视频序列进行人体姿态估计,获取视频序列中的关
键点序列;
[0040]特征提取模块,用于提取关键点序列中的时空特征,将提取的时空特征送入浅层神经网络进行投影,变换到嵌入空间;
[0041]编码模块,用于通过若干个编码层组成的编码器使用自注意力机制分别提取时空特征变换后的特征表示,并输出多尺度特征;
[0042]解码输出模块,用于采用由三层轻量级一维深度可分离卷积网络构成的分类预测头和回归预测头对多尺度特征进行解码,输出动作预测的标签序列。
[0043]优选地,所述装置还包括背景去噪模块,用于:
[0044]在获取视频序列中的关键点序列后,使用关键点序列生成每一帧的热力图;
[0045]根据每一帧的热力图,得到滤除背景噪声后的关键点序列。
[0046]优选地,所述姿态估计模块,具体用于:
[0047]采用人体姿态估计算法提取所述视频序列中的每一帧的关键点集合,所述关键点集合中的关键点包括头部、左手、右手、左肘、右肘、左肩和右肩;
[0048]对于每一当前帧,计算当前帧的关键点集合和前一帧的关键点集合之间的当前距离;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时序动作定位方法,其特征在于,所述方法包括:对获取的视频序列进行人体姿态估计,获取视频序列中的关键点序列;提取关键点序列中的时空特征,将提取的时空特征送入浅层神经网络进行投影,变换到嵌入空间;通过若干个编码层组成的编码器使用自注意力机制分别提取时空特征变换后的特征表示,并输出多尺度特征;采用由三层轻量级一维深度可分离卷积网络构成的分类预测头和回归预测头对多尺度特征进行解码,输出动作预测的标签序列。2.如权利要求1所述的时序动作定位方法,其特征在于,在获取视频序列中的关键点序列后,所述方法还包括:使用关键点序列生成每一帧的热力图;根据每一帧的热力图,得到滤除背景噪声后的关键点序列。3.如权利要求1所述的时序动作定位方法,其特征在于,所述对获取的视频序列进行人体姿态估计,获取视频序列中的关键点序列,具体包括:采用人体姿态估计算法提取所述视频序列中的每一帧的关键点集合,所述关键点集合中的关键点包括头部、左手、右手、左肘、右肘、左肩和右肩;对于每一当前帧,计算当前帧的关键点集合和前一帧的关键点集合之间的当前距离;当计算的当前距离大于预设距离阈值时,采用前一帧的关键点集合更新当前帧的关键点集合;当计算的当前距离不大于所述距离阈值时,不更新当前帧的关键点集合;完成每一当前帧的关键点集合的前后帧关联匹配,得到所述关键点序列;其中,当前距离K
c
为当前帧的关键点集合,K
p
为前一帧的关键点集合,x
p
为前一帧关键点的x轴坐标,x
a
为当前帧关键点的x轴坐标,y
p
为前一帧关键点的y轴坐标,y
a
为当前帧关键点的y轴坐标。4.如权利要求2所述的时序动作定位方法,其特征在于,滤除背景噪声后的关键点序列中每一当前帧关键点集合P
a
=P
h
·
P
c
;其中,P
c
为当前帧,P
h
为当前帧的人体热力图;当前帧的人体热力图的生成过程具体包括:计算关键点序列中每一对相邻关键点之间的距离,并在两点之间均匀采样,得到若干采样点;对每个采样点以预设半径建立高斯概率分布,将每一个关键点的中心灰度值,半径和色带均设为相同,得到了当前帧的人体热力图。5.如权利要求1所述的时序动作定位方法,其特征在于,所述提取关键点序列中的时空特征,将提取的时空特征送入浅层神经网络进行投影,变换到嵌入空间,具体包括:使用i3d网络提取关键点序列中的时空特征X={X1,X2,...,X
T
},将提取的时空特征送入浅层神经网络进行投影,变换到D维的嵌入空间,得到特征序列Z0;其中,X
...

【专利技术属性】
技术研发人员:谢雪梅要苏雨
申请(专利权)人:琶洲实验室黄埔
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1