一种基于双流卷积注意力的动作识别方法技术

技术编号:28776061 阅读:12 留言:0更新日期:2021-06-09 11:05
本发明专利技术公开了一种基于双流卷积注意力的动作识别方法。本发明专利技术方法首先对视频做预处理获得帧图像序列与光流图像序列,并分别提取视频的外观特征表示与动作特征表示;然后构建卷积注意力模块获得帧图像和光流图像的注意力特征表示,并通过双流融合模块对两种注意力表示进行信息融合;接着训练利用卷积注意力机制和双流融合方法的动作识别模型,并根据该模型对预处理后的新视频输出其动作类别。本发明专利技术方法不仅利用通道注意力和时空注意力捕获视频动作内容的潜在模式和时空关系,还通过双流融合从全局角度对视频的外观特征与运动特征进行信息融合,有效缓解了视频长期时序依赖的时序信息缺失问题,提高了动作识别的准确度。提高了动作识别的准确度。提高了动作识别的准确度。

【技术实现步骤摘要】
一种基于双流卷积注意力的动作识别方法


[0001]本专利技术属于计算机
,尤其是视频分析中的动作识别
,具体涉及一 种基于双流卷积注意力的动作识别方法。

技术介绍

[0002]近年来,各类视频数据与日俱增,如何识别视频的动作内容成为许多视频处理任务 的基础研究课题。动作识别技术主要是根据视频的内容给出视频动作的类别,在辅助驾 驶、视频内容审核、个性化推荐等多个应用场景有着十分重要的社会价值。例如,在车 辆辅助驾驶场景,动作识别技术可以帮助用户通过手势给导航系统发出指令,提升人们 的驾驶舒适度;在视频内容审核中,动作识别系统可以辅助人工进行视频内容审核,从 而提高审核效率、降低人力成本;在视频个性化推荐中,动作识别技术将视频按照内容 进行分类,根据用户感兴趣的话题类别为其推荐个性化的视频内容。目前,基于深度学 习技术的视频动作识别模型能够以远高于人工处理的效率完成动作分类任务,这将节省 大量的人工开销。
[0003]卷积神经网络(Convolutional Neural Networks,CNN)在图像识别、目标检测等 计算机视觉任务上带来显著的性能提升。不同于单幅图像,由图像帧序列构成的视频需 要考虑帧与帧之间的时序关系,所以研究人员提出了多种考虑时序信息的动作识别方法。 例如,三维卷积神经网络(3D ConvNets)在二维卷积神经网络(2D ConvNets)的基础 上对其卷积核加入时序维度,通过时序卷积捕获时序信息,有效提高识别准确率;双流 (Two

Stream)方法则分别使用彩色(RGB)图像和光流(Optical Flow)图像提取空间 视觉特征和时序运动特征,再对两种特征识别结果进行融合,从而准确理解视频动作内 容。此外,视频可能存在与动作类别无关的内容,而无关内容将干扰模型的识别准确率。 对此,目前主要采用两种方法解决该问题:1)利用长短期记忆网络(LSTM,Long Short

Term Memory)对卷积神经网络提取的图像帧特征进行处理,具体通过记忆单元保留关键特征 并遗忘无关信息,以减少无关内容对模型性能的影响;2)利用视觉注意力(Visual Attention)机制在特征图的空间维度计算对应的注意力图,据此获取图像帧的关键视觉 区域所表达的信息,并抑制无关内容所在的低注意力权重区域对模型的不利影响。
[0004]现有的视频动作识别方法仍存在一些不足:第一,不同视频帧内部的关键信息存在 差异,且不同帧的重要程度不相同,所以单一的视觉注意力无法有效捕获关键信息;第 二,三维卷积神经网络受限于卷积核尺寸,仅能提取小范围内多帧的短期依赖时序信息, 缺少对长期依赖时序信息的提取;第三,多数基于双流的方法直接将两种特征的动作识 别结果进行加权求和,未考虑对空间特征和运动特征进行信息融合。因此,为了应对上 述不足,本专利技术从通道时空关系和特征融合的角度出发,提出一种基于双流卷积注意力 的动作识别方法,以提高视频动作识别准确率。

技术实现思路

[0005]本专利技术的目的就是针对现有技术的不足,提供一种基于双流卷积注意力的动作识
别 方法,利用卷积注意力机制完成通道和时空维度的动作信息特征提取,通过双流融合刻 画长期依赖时序关系,以便获得更能反映视频数据潜在模式的特征表示,提升模型的动 作识别精度。
[0006]本专利技术方法首先获取包含动作类别标记的视频,然后进行以下操作:
[0007]步骤(1).对视频进行预处理,获得RGB帧图像序列V
RGB
和光流图像序列V
Flow
,分别 提取视频的外观特征表示F
RGB
和运动特征表示F
Flow

[0008]步骤(2).构建卷积注意力模块,输入为外观特征表示F
RGB
和动作特征表示F
Flow
,输 出为通道注意力张量和时空注意力张量,对特征表示分别进行加权获得外观注意力特征 表示和运动注意力特征表示
[0009]步骤(3).构建双流融合模块C,输入为外观注意力特征表示和运动注意力特征 表示输出为外观双流特征表示Z
RGB
和运动双流特征表示Z
Flow

[0010]步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型;将新视频进 行预处理并输入至该模型,获得视频内容的动作类别,完成动作识别任务。
[0011]进一步,步骤(1)具体是:
[0012](1

1).对视频V以每秒v帧的采样率进行处理,得到RGB帧图像序列其中,N表示RGB帧图像总数目,表示序列中第i幅、宽为w、高为h的RGB 三通道图像;视频V包含动作类别标记其中L为动作类别总数;v=10~30;
[0013](1

2).对RGB帧图像序列V
RGB
采用卢卡斯

卡纳德方法计算,得到对应的光流图像序 列列表示第i帧包含竖直方向与水平方向双通道的光流图像, [0014](1

3).将RGB帧图像序列V
RGB
和光流图像序列V
Flow
分别平均分成k段,并从各个段内随机采样m帧,得到其稀疏时间采样表示和其中 为m帧RGB图像组成的片段,为m帧光流图像组成的片段;
[0015](1

4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D(Inflated3D ConvNets)作为视觉特征提取器分别提取S
RGB
对应的外观特征表示和S
Flow
对应的运动特征表示其中,和分 别表示第j段经下采样后m

帧的外观特征图和运动特征图,通道数为c

、宽为w

、高为h


[0016]再进一步,步骤(2)具体是:
[0017](2

1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块;通道注意力 模块包括平均池化层Avgpool
3D
(
·
)、最大池化层Maxpool
3D
(
·
)和具有一个隐藏层的多层感 知机MLP(
·
);时空注意力模块包括平均池化层AvgPool
1D
(
·
)、最大池化层MaxPool
1D
(
·
)和 三维卷积层f7×7×7(
·
);
[0018](2

2).采用(2

1)方法对外观特征表示F
RGB
构建对应的外观卷积注意力模块
包 括通道注意力模块和时空注意力模块
[0019](2

3).通道注意力模块的输入为输出为k段的c本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双流卷积注意力的动作识别方法,其特征在于,该方法首先获取包含动作类别标记的视频,然后进行以下操作:步骤(1).对视频进行预处理,获得RGB帧图像序列V
RGB
和光流图像序列V
Flow
,分别提取视频的外观特征表示F
RGB
和运动特征表示F
Flow
;步骤(2).构建卷积注意力模块,输入为外观特征表示F
RGB
和动作特征表示F
Flow
,输出为通道注意力张量和时空注意力张量,对特征表示分别进行加权获得外观注意力特征表示和运动注意力特征表示步骤(3).构建双流融合模块C,输入为外观注意力特征表示和运动注意力特征表示输出为外观双流特征表示Z
RGB
和运动双流特征表示Z
Flow
;步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型;将新视频进行预处理并输入至该模型,获得视频内容的动作类别,完成动作识别任务。2.如权利要求1所述的一种基于双流卷积注意力的动作识别方法,其特征在于,步骤(1)具体是:(1

1).对视频V以每秒v帧的采样率进行处理,得到RGB帧图像序列其中,N表示RGB帧图像总数目,表示序列中第i幅、宽为w、高为h的RGB三通道图像;视频V包含动作类别标记其中L为动作类别总数;v=10~30;(1

2).对RGB帧图像序列V
RGB
采用卢卡斯

卡纳德方法计算,得到对应的光流图像序列f
iFlow
表示第i帧包含竖直方向与水平方向双通道的光流图像,(1

3).将RGB帧图像序列V
RGB
和光流图像序列V
Flow
分别平均分成k段,并从各个段内随机采样m帧,得到其稀疏时间采样表示和其中为m帧RGB图像组成的片段,为m帧光流图像组成的片段;(1

4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D作为视觉特征提取器分别提取S
RGB
对应的外观特征表示和S
Flow
对应的运动特征表示其中,和分别表示第j段经下采样后m

帧的外观特征图和运动特征图,通道数为c

、宽为w

、高为h

。3.如权利要求2所述的一种基于双流卷积注意力的动作识别方法,其特征在于,步骤(2)具体是:(2

1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块;通道注意力模块包括平均池化层Avgpool
3D
(
·
)、最大池化层Maxpool
3D
(
·
)和具有一个隐藏层的多层感知机MLP(
·
);时空注意力模块包括平均池化层AvgPool
1D
(
·
)、最大池化层MaxPool
1D
(
·
)和三维卷积层f7×7×7(
·
);(2

2).采用(2

1)方法对外观特征表示F
RGB
构建对应的外观卷积注意力模块包括通道注意力模块和时空注意力模块
(2

3).通道注意力模块的输入为输出为k段的c

个通道的通道注意力权重序列其中,通道注意力权重其中,通道注意力权重分别表示对特征图进行三维时空平均池化操作和三维时空最大池化操作,MLP(
·
)由神经元数分别为c

、c

/2、c

的三层全连接层构成,σ(
·
)表示Sigmoid函数;(2
‑...

【专利技术属性】
技术研发人员:李平马浩男曹佳晨徐向华
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1