【技术实现步骤摘要】
基于视频进行动作识别的方法及系统
[0001]本公开涉及基于视频进行动作识别的方法及系统。
技术介绍
[0002]近年来,人体动作识别由于其在自动视频分析、视频监控、体育赛事分析和虚拟现实等方面的潜在应用备受关注。物联网(IoT)上多媒体设备的激增产生了前所未有的数据量,大量的视频数据对人的行为识别提出了越来越高的要求,虽然静态图像分类取得了巨大成功,但人类动作识别在电影、体育视频和日常生活消费视频等现实视频中仍然是一个问题,该问题是由动作视频的一些固有特征引起的,例如类内变化、遮挡、视点变化、背景噪声、运动速度和人员差异等。
[0003]随着深度神经网络在图像识别领域的显著成功,人体动作识别已成为深度网络在计算机视觉领域的第二大应用。有大量发表的研究使用各种深度神经网络来提高视频中动作识别的准确性。经典的双流深度动作识别网络通常由一个空间流和一个时间流组成,如图1所示。空间流提取外观特征,时间流利用光流估计器提取运动信息,每个流都使用一个深层的卷积网络与一个softmax分类器连接,最终将两个流的分类结果进行融合。 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于视频进行动作识别的方法,包括:基于所述视频包括的连续帧的数据,使用核互相关器来计算每一帧中跟踪目标的位置;以及基于每一帧的数据以及每一帧中跟踪目标的位置,使用长短期记忆模型LSTM对视频中的运动特征进行计算。2.根据权利要求1所述的方法,其中,计算每一帧中跟踪目标的位置包括:以计算出的前一帧中跟踪目标的位置为中心,在当前帧的数据中确定一个或多个数据块;使用基于前一帧的数据计算的互相关系数矩阵,对所述一个或多个数据块进行互相关滤波,以计算互相关滤波的响应矩阵;以及根据所述响应矩阵确定当前帧中跟踪目标的位置。3.根据权利要求1或2所述的方法,其中,所述核互相关器的核函数为高斯核函数,所述核互相关器的训练初始化使用的响应矩阵为中心位置的元素为1、其他元素为0的矩阵。4.根据权利要求1所述的方法,其中,使用LSTM对视频中的运动信息进行计算包括:基于每一帧的数据X
t
以及每一帧中跟踪目标的位置M
t
来计算LSTM的门函数和候选存储单元,从而使用LSTM来对视频中的运动信息进行计算。5.根据权利要求4所述的方法,其中,根据如下公式分别计算LSTM的输入门函数I
t
、遗忘门函数F
t
、输出门函数O
t
和候选存储单元I
t
=σ(W
xi
*X
t
+W
hi
*H
t
‑1+W
mi
*M
t
+b
i
)F
t
=σ(W
xf
*X
t
+W
hf
*H
t
‑1+W
mf
*M
t
+b
f
技术研发人员:贾立煜,李祎琨,潘炜,董炳泉,王龙山,孙丽,薛志勇,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。