基于视频进行动作识别的方法及系统技术方案

技术编号:33131397 阅读:23 留言:0更新日期:2022-04-17 00:48
本公开涉及基于视频进行动作识别的方法,包括:基于所述视频包括的连续帧的数据,使用核互相关器来计算每一帧中跟踪目标的位置;以及基于每一帧的数据以及每一帧中跟踪目标的位置,使用长短期记忆模型LSTM对视频中的运动特征进行计算。本公开还涉及基于视频进行动作识别的系统和存储介质。识别的系统和存储介质。识别的系统和存储介质。

【技术实现步骤摘要】
基于视频进行动作识别的方法及系统


[0001]本公开涉及基于视频进行动作识别的方法及系统。

技术介绍

[0002]近年来,人体动作识别由于其在自动视频分析、视频监控、体育赛事分析和虚拟现实等方面的潜在应用备受关注。物联网(IoT)上多媒体设备的激增产生了前所未有的数据量,大量的视频数据对人的行为识别提出了越来越高的要求,虽然静态图像分类取得了巨大成功,但人类动作识别在电影、体育视频和日常生活消费视频等现实视频中仍然是一个问题,该问题是由动作视频的一些固有特征引起的,例如类内变化、遮挡、视点变化、背景噪声、运动速度和人员差异等。
[0003]随着深度神经网络在图像识别领域的显著成功,人体动作识别已成为深度网络在计算机视觉领域的第二大应用。有大量发表的研究使用各种深度神经网络来提高视频中动作识别的准确性。经典的双流深度动作识别网络通常由一个空间流和一个时间流组成,如图1所示。空间流提取外观特征,时间流利用光流估计器提取运动信息,每个流都使用一个深层的卷积网络与一个softmax分类器连接,最终将两个流的分类结果进行融合。这种双流识别模型是基于生物灵感,即人类大脑中有两种不同的视觉记忆模块,分别负责分析静态图像和运动信息。然而这种方法忽视了参与运动视觉分析的大脑区域也参与处理静态图像中隐含的动态信息;另外,这些识别方法都有一个共同的缺点:需要额外的在学习过程中手工提取动作特征信息,这些额外的信息具有较高的计算复杂性,在应用于实时问题和大规模视频数据时面临局限性。

技术实现思路

[0004]在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
[0005]根据本公开的第一方面,提供一种基于视频进行动作识别的方法,包括:基于所述视频包括的连续帧的数据,使用核互相关器来计算每一帧中跟踪目标的位置;以及基于每一帧的数据以及每一帧中跟踪目标的位置,使用长短期记忆模型LSTM对视频中的运动特征进行计算。
[0006]根据本公开的第二方面,提供一种基于视频进行动作识别的系统,包括:空间特征提取模块,被配置为对所述视频包括的各个帧进行处理,以得到每一帧的特征图;运动流估计模块,被配置为基于连续帧的特征图,使用核互相关器来计算每一帧中跟踪目标的位置;运动特征估计模块,被配置为基于每一帧的特征图以及每一帧中跟踪目标的位置,使用长短期记忆模型LSTM对视频中的运动特征进行计算;以及动作分类模块,被配置为使用softmax分类器对计算的运动特征进行动作分类。
[0007]根据本公开的第三方面,提供一种基于视频进行动作识别的系统,包括:存储器,其上存储有指令;以及处理器,被配置为执行存储在所述存储器上的指令,以执行根据本公开的上述方面所述的方法。
[0008]根据本公开的第四方面,提供一种计算机可读存储介质,其包括计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行根据本公开的上述方面所述的方法。
[0009]针对目前双流识别模型存在的独立提取空间和时间信息以及需要额外手工提取特征等问题,本公开提出了一种整合运动感知长短时记忆模块的时空视频识别网络,长短时记忆模块主要用于同时进行运动估计和时空特征提取,运动估计是基于核化互相关方法,不需要预先估计光流网络来理解视频中的时间行为。由于该网络采用端到端方式设计,因此不需要任何手工特征提取模块。
附图说明
[0010]构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
[0011]参照附图,根据下面的详细描述,可以更清楚地理解本公开,其中:
[0012]图1为现有的双流深度动作识别网络的示意图。
[0013]图2为根据本公开实施例的基于视频进行动作识别的系统的结构图。
[0014]图3为根据本公开实施例的基于视频进行动作识别的系统中的运动流估计模块和运动特征估计模块的原理示意图。
[0015]图4为能够实现根据本公开的实施例的示例性硬件配置的结构图。
具体实施方式
[0016]参考附图进行以下详细描述,并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解,但是这些细节仅被认为是示例,而不是为了限制本公开,本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语仅用于能够清楚一致地理解本公开。另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。
[0017]为了解决LSTM和ConvLSTM网络无法提取丰富时间信息的问题,本公开提出结合运动流估计模块和运动特征估计模块(本文中简称为“运动感知ConvLSTM时空层”,其原理如图3所示),基于核互相关器进行运动流估计并将估计的运动信息用于ConvLSTM单元的输入,该方法仅依赖于视频的RGB图像,避免了计算光流的计算复杂度,并且能够有效地增强具有运动信息的LSTM单元,对视频信息更好地表示。
[0018]图2为根据本公开实施例的基于视频进行动作识别的系统100的结构图。根据本公开实施例的基于视频进行动作识别的系统100包括空间特征提取模块110、运动流估计模块120、运动特征估计模块130和动作分类模块140。其中,空间特征提取模块110使用一个或多个卷积层对视频包括的各个帧进行处理,例如可以使用VGG16的前三个块作为卷积层,以得到每一帧的特征图,即提取每一帧的基本空间特征。空间特征提取模块110只对视频信息提
取基本的空间特征,这些特征有足够的空间和运动数据来传递给后续的处理模块。卷积层可以在ImageNet上预先训练,并在相应的数据集上进行微调。
[0019]运动流估计模块120基于连续帧的特征图,使用核互相关器来计算每一帧中跟踪目标的位置。具体地,在运动流估计模块120中,以计算出的前一帧中跟踪目标的位置为中心,在当前帧的数据中确定一个或多个数据块;使用基于前一帧的数据计算的互相关系数矩阵,对一个或多个数据块进行互相关滤波,以计算互相关滤波的响应矩阵;以及根据响应矩阵确定当前帧中跟踪目标的位置。在一个实施例中,核互相关器的核函数为高斯核函数,核互相关器的训练初始化使用的响应矩阵为中心位置的元素为1、其他元素为0的矩阵。
[0020]运动流估计模块120基于相关的动作识别器核互相关器(Kernel Cross Correlator,KCC)通过引入核函数,将线性相关扩展到非线性空间,对信号噪声和畸变具有更强的鲁棒性,并且与现有网络的连接表明KCC为相关过滤器提供了统一的解决方案。此外,KCC适用于任何核函数,不局限于训练数据上的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频进行动作识别的方法,包括:基于所述视频包括的连续帧的数据,使用核互相关器来计算每一帧中跟踪目标的位置;以及基于每一帧的数据以及每一帧中跟踪目标的位置,使用长短期记忆模型LSTM对视频中的运动特征进行计算。2.根据权利要求1所述的方法,其中,计算每一帧中跟踪目标的位置包括:以计算出的前一帧中跟踪目标的位置为中心,在当前帧的数据中确定一个或多个数据块;使用基于前一帧的数据计算的互相关系数矩阵,对所述一个或多个数据块进行互相关滤波,以计算互相关滤波的响应矩阵;以及根据所述响应矩阵确定当前帧中跟踪目标的位置。3.根据权利要求1或2所述的方法,其中,所述核互相关器的核函数为高斯核函数,所述核互相关器的训练初始化使用的响应矩阵为中心位置的元素为1、其他元素为0的矩阵。4.根据权利要求1所述的方法,其中,使用LSTM对视频中的运动信息进行计算包括:基于每一帧的数据X
t
以及每一帧中跟踪目标的位置M
t
来计算LSTM的门函数和候选存储单元,从而使用LSTM来对视频中的运动信息进行计算。5.根据权利要求4所述的方法,其中,根据如下公式分别计算LSTM的输入门函数I
t
、遗忘门函数F
t
、输出门函数O
t
和候选存储单元I
t
=σ(W
xi
*X
t
+W
hi
*H
t
‑1+W
mi
*M
t
+b
i
)F
t
=σ(W
xf
*X
t
+W
hf
*H
t
‑1+W
mf
*M
t
+b
f

【专利技术属性】
技术研发人员:贾立煜李祎琨潘炜董炳泉王龙山孙丽薛志勇
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1