一种基于时空关联和SFPSNet的图像动作识别方法技术

技术编号：41802110 阅读：12 留言：0更新日期：2024-06-24 20:24

本发明专利技术公开了一种基于时空关联和SFPSNet的图像动作识别方法。本发明专利技术包括如下步骤：首先，对输入的视频图像进行视频帧的提取和预处理，获得低频的视频帧和高频的视频帧；接着将低频的视频帧输入到慢分支，以及将高频的视频帧输入到快分支中，获得两条分支对应的包含空间信息和运动信息的特征张量；再将两条分支的包含空间信息和运动信息的特征张量在通道维度上进行拼接融合后，得到空间‑运动特征张量；最后将空间‑运动特征张量依次输入到Dropout层和分类器中，获得动作识别结果。本发明专利技术能够提取输入视频图像中的空间特征和时间特征并进行组合，得到精确描述动作的特征张量，并通过其特征实现对视频图像的精确识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及了一种动作识别的方法，具体涉及了一种关联时间信息和空间信息的图像工作识别方法。

技术介绍

1、人体动作识别是计算机视觉领域的一个重要研究方向，旨在从视频中识别和理解人类或其他实体的行为。人体动作识别有许多实际应用，如视频监控、智能家居、体育分析、人机交互等。随着视频数据的爆炸式增长，人体动作识别的需求和挑战也日益增加，因此，如何提高人体动作识别的准确性和效率，是一个值得深入研究的问题。

2、近年来，深度学习在图像分类、目标检测、语音识别等领域取得了巨大的成功。深度学习可以自动从数据中学习高层次的特征表示，避免了手工设计特征的复杂性和局限性。深度学习在人体动作识别中的主要方法有两种：一种是基于双流网络的方法，它将视频分为rgb帧和光流帧，分别用卷积神经网络(cnn)提取空间和时间特征，然后将两种特征融合起来进行分类；另一种是基于三维卷积神经网络(3d cnn)的方法，它可以直接对视频块进行三维卷积，同时学习空间和时间特征，然后用全连接层或池化层进行分类。这两种方法都有各自的优缺点，例如，双流网络可以更好地捕捉动作...

【技术保护点】

1.一种基于时空关联和SFPSNet的图像动作识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于时空关联和SFPSNet的图像动作识别方法，其特征在于，所述2)中，快分支均包括依次相连的第一卷积块、4个残差层和第一全局平均池化层，快分支的输入作为第一卷积块的输入，慢分支包括依次相连的第二卷积块、4个残差层和第二全局平均池化层，慢分支的输入作为第二卷积块的输入；快分支的第一卷积块的输出还作为第一卷积层的输入，第一卷积层的输出与慢分支的第二卷积块的输出在通道维度上进行拼接融合后再输入到慢分支的第一残差层中；快分支的第一残差层的输出还作为第二卷积层的输入，第二卷...

【技术特征摘要】

1.一种基于时空关联和sfpsnet的图像动作识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于时空关联和sfpsnet的图像动作识别方法，其特征在于，所述2)中，快分支均包括依次相连的第一卷积块、4个残差层和第一全局平均池化层，快分支的输入作为第一卷积块的输入，慢分支包括依次相连的第二卷积块、4个残差层和第二全局平均池化层，慢分支的输入作为第二卷积块的输入；快分支的第一卷积块的输出还作为第一卷积层的输入，第一卷积层的输出与慢分支的第二卷积块的输出在通道维度上进行拼接融合后再输入到慢分支的第一残差层中；快分支的第一残差层的输出还作为第二卷积层的输入，第二卷积层的输出与慢分支的第一残差层的输出在通道维度上进行拼接融合后再输入到慢分支的第二残差层中；快分支的第二残差层的输出还作为第三卷积层的输入，第三卷积层的输出与慢分支的第二残差层的输出在通道维度上进行拼接融合后再输入到慢分支的第三残差层中；快分支的第三残差层的输出还作为第四卷积层的输入，第四卷积层的输出与慢分支的第三残差层的输出在通道维度上进行拼接融合后再输入到慢分支的第四残差层中；第一全局平均池化层的输出作为快分支的输出，第二全局平均池化层的输出作为慢分支的输出。

3.根据权利要求2所述的一种基于时空关联和sfpsnet的图像动作识别方法，其特征在于，所述第一卷积块和第二卷积块的结构相同，均包括依次相连的第五卷积层、第六卷积层、批归一化层和激活层。

4.根据权利要求2所述的一种基于时空关联和sfpsnet的图像动作识别方法，其特征在于，所述快分支和慢分支中残差层均包括多个依次相连的残差模块，每个残差模块包括残差映射和恒等映射，其中，每个残差模块的输入记为输入特征张量，输入特征张量经残差映射的特征提取后获得第一特征张量，同时输入特征张量经恒等映射后获得第二特征张量，对第一特征张量和第二特征张量相加后获得残差模块的输出特征张量，具体公式如下：

5.根据权利要求4所述的一种基于时空关联和sfpsnet的图像动作识别方法，其特征在于，所述残差映射包括空间最大池化层、时间卷积层、空间卷积层、scm注意力机制模块和第一逐点卷积层，输入特征张量分别输入到空间最大池化层、时间卷积层和空间卷积层中，空间最大池化层、时...

【专利技术属性】
技术研发人员：田秋红，黄静，曾飞，陈天成，杨毅杰，
申请(专利权)人：浙江理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人