基于HRNet-双流transformer网络的人体动作识别方法技术

技术编号:38545003 阅读:28 留言:0更新日期:2023-08-22 20:55
一种基于HRNet

【技术实现步骤摘要】
基于HRNet

双流transformer网络的人体动作识别方法


[0001]本专利技术属于人工智能人体动作识别
,具体涉及到基于HRNet

双流transformer网络的人体动作识别方法。

技术介绍

[0002]人体动作识别是人工智能计算机视觉研究领域的重要分支之一,是让人工智能可以理解人体的动作。人体动作识别通过对视频图像的处理得到人体动作的特征,该特征包括但不限于人体关键点特征、光流特征、图像通道特征。不同的人体动作识别方法依靠不同的人体特征进行分析比较,最终完成针对人体动作识别。人体动作识别对于虚拟现实和人机交互技术的发展具有重要的作用,被广泛应用于安保、监控、娱乐、智能家居、医疗等领域,受到了国内外的广泛关注。
[0003]近年来国内外人体动作研究取得了重要进展。但是由于人体本身的复杂性和多样性,比如人的肢体之间的交叉和遮挡情况,动作识别很容易出现错误。同时环境的也会对动作识别造成一定干扰,比如从视频图像中提取图像通道特征,借助该特征进行人体动作识别,识别过程中可能会关注到人体周边的环境而非人体本身的动作,从而影响人体动作识别的精度。目前,借助单一的人体动作的特征进行人体动作识别已经不足以满足人体动作识别的准确性要求,融合多种特征的双流网络模型已经成为动作识别方法的一种发展趋势。
[0004]在人体动作识别领域,当前需迫切解决的一个技术问题是对提高人体动作识别的准确率。

技术实现思路

[0005]本专利技术所要解决的技术问题在于克服上述技术的不足,提供一种对采集的人体动作视频质量要求低、识别视频得准确率高、应用场景广泛的基于HRNet

双流transformer网络的人体动作识别方法。
[0006]解决上述技术问题所采用的技术方案由下述步骤组成:
[0007](1)采集人体动作视频
[0008]用摄像机获取人体动作视频,截取人体动作视频片段,记录其代表动作作为动作标签c
n
,读取该视频片段的帧并排列成帧集合V:
[0009]V={p1,p2,

,p
t
}
[0010]其中p
t
表示t时刻的帧,t∈{1,2,

,A
×
Z},A表示视频片段的长度,A取值为1~10,Z表示帧采样频率,Z取值为1~50;将帧集合V和动作标签c
n
组成样本:
[0011]Q
u
={V
u
,c
n
}
[0012]其中n是动作标签的种类,n∈{1,2,

,10},c1为行走,c2为坐下,c3为站起,c4为刷牙,c5为戴眼镜,c6为摘眼镜,c7为喝水,c8为吃饭,c9为鼓掌,c
10
为握手,u是人体动作视频的种类,u取值为100~600,构建人体动作数据集J,J∈{Q1,Q2,

,Q
u
},将人体动作数据集J按
照5:1划分为训练集、测试集。
[0013](2)构建HRNet

双流transformer网络
[0014]HRNet

双流transformer网络由HRNet网络与双流transformer网络串联构成;
[0015]所述的HRNet网络由第一特征提取模块与第二特征提取模块、第三特征提取模块依次串联构成;
[0016]所述的双流transformer网络由人体关键点transformer分支网络与视频特征transformer分支网络并联构成;人体关键点transformer分支网络由人体关键点输入层与第一卷积层、第二卷积层、第三卷积层、自注意力模块、第四卷积层、池化层依次串联构成;视频特征transformer分支网络由视频序列输入层与第一卷积层、第二卷积层、第三卷积层、自注意力模块、第四卷积层、池化层依次串联构成。
[0017](3)训练HRNet

双流transformer网络
[0018]1)确定HRNet网络损失函数
[0019]按式(1)确定HRNet网络损失函数l
hr

[0020][0021][0022][0023]其中表示的欧几里得范式,F
t
是特征图,是所有F
t
的平均值,E(F
t
)是回归函数,ω是迭代更新参数,O指迭代次数,β是系数、取值为0.2。
[0024]2)确定特征图
[0025]按式(2)确定特征图F
t

[0026][0027]其中,是不同分辨率的特征矩阵,r
w
表示分辨率,w表示分辨率种类,w∈{1,2,3},r1为高分辨率,r2为中分辨率,r3为低分辨率。
[0028]按式(3)确定不同分辨率的特征矩阵
[0029][0030]其中,a表示帧集合V的像素点。
[0031]3)确定人体关键点transformer分支网络的损失函数
[0032]按式(4)确定人体关键点transformer分支网络的损失函数l
key

[0033][0034][0035]S
n
=Softmax(c
n
)
[0036]其中,M表示真实特征,S
n
是c
n
输入Softmax函数中得到的标签。
[0037]4)确定视频特征transformer分支的损失函数
[0038]按式(5)确定视频特征transformer分支的损失函数l
v

[0039][0040]其中,表示的欧几里得范式。
[0041]5)确定双流transformer网络的损失函数
[0042]按式(6)确定双流transformer网络的损失函数l
tr

[0043]l
tr
=l
key
+δl
v
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0044]其中,δ是参数,δ取值为0.01~0.03;
[0045]6)确定HRNet

双流transformer网络的损失函数
[0046]按式(7)确定HRNet

双流transformer网络的损失函数l:
[0047]l=l
hr
+l
tr
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0048]7)训练集输入HRNet
...

【技术保护点】

【技术特征摘要】
1.一种基于HRNet

双流transformer网络的人体动作识别方法,其特征在于由下述步骤组成:(1)采集人体动作视频用摄像机获取人体动作视频,截取人体动作视频片段,记录其代表动作作为动作标签c
n
,读取该视频片段的帧并排列成帧集合V:V={p1,p2,

,p
t
}其中p
t
表示t时刻的帧,t∈{1,2,...,A
×
Z},A表示视频片段的长度,A取值为1~10,Z表示帧采样频率,Z取值为1~50;将帧集合V和动作标签c
n
组成样本:Q
u
={V
u
,c
n
}其中n是动作标签的种类,n∈{1,2,...,10},c1为行走,c2为坐下,c3为站起,c4为刷牙,c5为戴眼镜,c6为摘眼镜,c7为喝水,c8为吃饭,c9为鼓掌,c
10
为握手,u是人体动作视频的种类,u取值为100~600,构建人体动作数据集J,J∈{Q1,Q2,...,Q
u
},将人体动作数据集J按照5∶1划分为训练集、测试集;(2)构建HRNet

双流transformer网络HRNet

双流transformer网络由HRNet网络与双流transformer网络串联构成;所述的HRNet网络由第一特征提取模块与第二特征提取模块、第三特征提取模块依次串联构成;所述的双流transformer网络由人体关键点transformer分支网络与视频特征transformer分支网络并联构成;人体关键点transformer分支网络由人体关键点输入层与第一卷积层、第二卷积层、第三卷积层、自注意力模块、第四卷积层、池化层依次串联构成;视频特征transformer分支网络由视频序列输入层与第一卷积层、第二卷积层、第三卷积层、自注意力模块、第四卷积层、池化层依次串联构成;(3)训练HRNet

双流transformer网络1)确定HRNet网络损失函数按式(1)确定HRNet网络损失函数l
hr
:::其中表示的欧几里得范式,F
t
是特征图,是所有F
t
的平均值,E(F
t
)是回归函数,ω是迭代更新参数,O指迭代次数,β是系数、取值为0.2;2)确定特征图按式(2)确定特征图F
t
:其中,是不同分辨率的特征矩阵,r
w
表示分辨率,w表示分辨率种类,w∈{1,2,3},r1为高分辨率,r2为中分辨率,r3为低分辨率;按式(3)确定不同分辨率的特征矩阵
其中,a表示帧集合V的像素点;3)确定人体关键点transformer分支网络的损失函数按式(4)确定人体关键点transformer分支网络的损失函数l
key
::S
n
=Softmax(c
n
)其中,M表示真实特征,S
n
是c<...

【专利技术属性】
技术研发人员:裴炤周彦辛张艳宁
申请(专利权)人:陕西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1