一种基于双流卷积注意力的动作识别方法技术

技术编号：28776061 阅读：12 留言：0更新日期：2021-06-09 11:05

本发明专利技术公开了一种基于双流卷积注意力的动作识别方法。本发明专利技术方法首先对视频做预处理获得帧图像序列与光流图像序列，并分别提取视频的外观特征表示与动作特征表示；然后构建卷积注意力模块获得帧图像和光流图像的注意力特征表示，并通过双流融合模块对两种注意力表示进行信息融合；接着训练利用卷积注意力机制和双流融合方法的动作识别模型，并根据该模型对预处理后的新视频输出其动作类别。本发明专利技术方法不仅利用通道注意力和时空注意力捕获视频动作内容的潜在模式和时空关系，还通过双流融合从全局角度对视频的外观特征与运动特征进行信息融合，有效缓解了视频长期时序依赖的时序信息缺失问题，提高了动作识别的准确度。提高了动作识别的准确度。提高了动作识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双流卷积注意力的动作识别方法

[0001]本专利技术属于计算机
，尤其是视频分析中的动作识别
，具体涉及一种基于双流卷积注意力的动作识别方法。

技术介绍

[0002]近年来，各类视频数据与日俱增，如何识别视频的动作内容成为许多视频处理任务的基础研究课题。动作识别技术主要是根据视频的内容给出视频动作的类别，在辅助驾驶、视频内容审核、个性化推荐等多个应用场景有着十分重要的社会价值。例如，在车辆辅助驾驶场景，动作识别技术可以帮助用户通过手势给导航系统发出指令，提升人们的驾驶舒适度；在视频内容审核中，动作识别系统可以辅助人工进行视频内容审核，从而提高审核效率、降低人力成本；在视频个性化推荐中，动作识别技术将视频按照内容进行分类，根据用户感兴趣的话题类别为其推荐个性化的视频内容。目前，基于深度学习技术的视频动作识别模型能够以远高于人工处理的效率完成动作分类任务，这将节省大量的人工开销。
[0003]卷积神经网络(Convolutional Neural Networks,CNN)在图像识别、目标检测等计算机视觉任务上带来显著的性能提升。不同于单幅图像，由图像帧序列构成的视频需要考虑帧与帧之间的时序关系，所以研究人员提出了多种考虑时序信息的动作识别方法。例如，三维卷积神经网络(3D ConvNets)在二维卷积神经网络(2D ConvNets)的基础上对其卷积核加入时序维度，通过时序卷积捕获时序信息，有效提高识别准确率；双流 (Two
‑
Stream)方法则...

【技术保护点】

【技术特征摘要】
1.一种基于双流卷积注意力的动作识别方法，其特征在于，该方法首先获取包含动作类别标记的视频，然后进行以下操作：步骤(1).对视频进行预处理，获得RGB帧图像序列V
RGB
和光流图像序列V
Flow
，分别提取视频的外观特征表示F
RGB
和运动特征表示F
Flow
；步骤(2).构建卷积注意力模块，输入为外观特征表示F
RGB
和动作特征表示F
Flow
，输出为通道注意力张量和时空注意力张量，对特征表示分别进行加权获得外观注意力特征表示和运动注意力特征表示步骤(3).构建双流融合模块C，输入为外观注意力特征表示和运动注意力特征表示输出为外观双流特征表示Z
RGB
和运动双流特征表示Z
Flow
；步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型；将新视频进行预处理并输入至该模型，获得视频内容的动作类别，完成动作识别任务。2.如权利要求1所述的一种基于双流卷积注意力的动作识别方法，其特征在于，步骤(1)具体是：(1
‑
1).对视频V以每秒v帧的采样率进行处理，得到RGB帧图像序列其中，N表示RGB帧图像总数目，表示序列中第i幅、宽为w、高为h的RGB三通道图像；视频V包含动作类别标记其中L为动作类别总数；v＝10～30；(1
‑
2).对RGB帧图像序列V
RGB
采用卢卡斯
‑
卡纳德方法计算，得到对应的光流图像序列f
iFlow
表示第i帧包含竖直方向与水平方向双通道的光流图像，(1
‑
3).将RGB帧图像序列V
RGB
和光流图像序列V
Flow
分别平均分成k段，并从各个段内随机采样m帧，得到其稀疏时间采样表示和其中为m帧RGB图像组成的片段，为m帧光流图像组成的片段；(1
‑
4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D作为视觉特征提取器分别提取S
RGB
对应的外观特征表示和S
Flow
对应的运动特征表示其中，和分别表示第j段经下采样后m
′
帧的外观特征图和运动特征图，通道数为c
′
、宽为w
′
、高为h
′
。3.如权利要求2所述的一种基于双流卷积注意力的动作识别方法，其特征在于，步骤(2)具体是：(2
‑
1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块；通道注意力模块包括平均池化层Avgpool
3D
(
·
)、最大池化层Maxpool
3D
(
·
)和具有一个隐藏层的多层感知机MLP(
·
)；时空注意力模块包括平均池化层AvgPool
1D
(
·
)、最大池化层MaxPool
1D
(
·
)和三维卷积层f7×7×7(
·
)；(2
‑
2).采用(2
‑
1)方法对外观特征表示F
RGB
构建对应的外观卷积注意力模块包括通道注意力模块和时空注意力模块
(2
‑
3).通道注意力模块的输入为输出为k段的c
′
个通道的通道注意力权重序列其中，通道注意力权重其中，通道注意力权重分别表示对特征图进行三维时空平均池化操作和三维时空最大池化操作，MLP(
·
)由神经元数分别为c
′
、c
′
/2、c
′
的三层全连接层构成，σ(
·
)表示Sigmoid函数；(2
‑...

【专利技术属性】
技术研发人员：李平，马浩男，曹佳晨，徐向华，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人