基于2维和3维CNN的人体行为检测方法及系统技术方案

技术编号：35063011 阅读：17 留言：0更新日期：2022-09-28 11:18

本申请提供一种基于2维和3维CNN的人体行为检测方法及系统。其通过输入模块接收视频帧序列并提取其中关键帧，通过数据增强模块对帧图像进行对输入的帧图像进行样本量扩充，通过二维卷积模型和三维卷积模型分别提取关键帧所含空间特征和视频帧序列所含时空特征，对两者进行特征融合后将融合所获得的最终特征图D经过1

全部详细技术资料下载

【技术实现步骤摘要】
基于2维和3维CNN的人体行为检测方法及系统

[0001]本申请涉及行为检测领域，具体而言涉及一种基于2维和3维CNN的人体行为检测方法及系统。

技术介绍

[0002]行为检测是计算机视觉领域中的一个热点问题，主要应用于智能视频监控、公共安全、智能预警等领域，主要任务是从视频中对行人目标进行逐帧连续检测，在完成空间定位的同时获取行为类别。
[0003]然而，由于行为类别多种多样，各个行为间相似度较大，使得人体行为检测技术未能有新的突破，存在检测准确度较低、帧率较低等问题，无法满足现有的需求。最初的行为检测技术采用DT算法提取特征，由于此类方法耗费过大的人工量，受到一定限制、难以得到广泛的应用。随着深度学习的发展，相关学者采用2维卷积神经网络来实现，初步完成人体行为检测任务，但是现有2维卷积神经网络对时间跨度较大的行为检测效果不理想；接着，一些学者便提出用三维卷积神经网络实现行为检测，同样未能达到理想的效果。

技术实现思路

[0004]本申请针对现有技术的不足，提供一种基于2维和3维CNN的人体行为检测方法及系统，本申请通过2D
‑
CNN和3D
‑
CNN分别提取空间特征和时空特征，再将特征进行融合，能够基于融合获得的特征实现高效精确的人体行为检测。本申请具体采用如下技术方案。
[0005]首先，为实现上述目的，提出一种基于2维和3维CNN的人体行为检测方法，其步骤包括：第一步，接收视频帧序列，提取其中关键帧；第二步，以Darknet
‑
>19作为骨架网络的二维卷积模型提取关键帧所含空间特征，生成位置特征图，以3D
‑
resnet
‑
101作为骨架网络的三维卷积模型提取视频帧序列所含时空特征，生成时空特征图；第三步，对位置特征图和时空特征图进行concat拼接获得拼接特征矩阵A，并将拼接所得拼接特征矩阵A输入至两个卷积层进行初步融合获得融合矩阵B；第四步，以上下文特征聚合CFAM模块对融合矩阵B进行维度变换、转置以及矩阵乘积操作生成格拉姆矩阵Gram＝F
×
F
T
；第五步，根据格拉姆矩阵Gram提取通道注意力模型矩阵C＝αF
″
+B，其中，F
″
由F重构获得，α表示学习的权重；第六步，将通道注意力模型矩阵C重新经过两个卷积层还原得到最终特征图D；第七步，对最终特征图D进行1
×
1卷积生成检测所需通道数，按照检测所需通道数生成视频动作管连接算法，通过损失函数对视频动作管连接算法进行参数优化，利用优化后的视频动作管连接算法提取视频帧序列中先验框及其相应置信度IOU值，显示先验框并标记人体行为。
[0006]可选的，如上任一所述的基于2维和3维CNN的人体行为检测方法，其中，所述第一步中，视频帧序列的帧数为8帧或16帧，每个视频帧序列中分别仅提取其中最后一帧作为关键帧。
[0007]可选的，如上任一所述的基于2维和3维CNN的人体行为检测方法，其中，还在第二步之前对视频帧序列以及关键帧的图像进行数据增强处理，包括：对输入的帧图像进行随
机抖动、随机旋转和/或随机色域操作以扩充样本量。
[0008]可选的，如上任一所述的基于2维和3维CNN的人体行为检测方法，其中，所述第二步中，还在提取关键帧所含空间特征、提取视频帧序列所含时空特征之前：将图片的尺寸统一放缩到224
×
224，并除以255进行归一化处理。
[0009]可选的，如上任一所述的基于2维和3维CNN的人体行为检测方法，其中，所述位置特征图为[C
″×
H
′×
W
′
]，时空特征图为[C
′×
H
′×
W
′
]，其中，C
″
表示位置特征图的通道数，C
′
表示时空特征图的通道数，H
′
表示特征图的高度，W
′
表示特征图的宽度；拼接特征矩阵A∈R
(C
″
+C
′
)
×
H
×
W
；融合矩阵；融合矩阵可选的，如上任一所述的基于2维和3维CNN的人体行为检测方法，其中，格拉姆矩阵Gram中任一元素表示向量化特征映射之间的内积；第五步中，根据格拉姆矩阵Gram提取通道注意力模型矩阵C的具体步骤包括：通过softmax函数生成注意力矩阵M∈R
C
×
C
，其中，注意力矩阵M中任一元素表示衡量第j个通道对第i个通道影响的分数，根据注意力矩阵M计算F
′
＝M
·
F，其中，
[0010]可选的，如上任一所述的基于2维和3维CNN的人体行为检测方法，其中，根据格拉姆矩阵Gram提取通道注意力模型矩阵C＝αF
″
+B时，学习的权重α为通过损失函数对视频动作管连接算法进行参数优化所获得的固定值，α≠0。
[0011]同时，为实现上述目的，本申请还提供一种基于2维和3维CNN的人体行为检测系统，其包括：输入模块，用于接收视频帧序列，提取其中关键帧；特征提取模块，用于以Darknet
‑
19作为骨架网络的二维卷积模型提取关键帧所含空间特征，生成位置特征图，以3D
‑
resnet
‑
101作为骨架网络的三维卷积模型提取视频帧序列所含时空特征，生成时空特征图；特征融合模块，用于首先，对位置特征图和时空特征图进行concat拼接获得拼接特征矩阵A，并将拼接所得拼接特征矩阵A输入至两个卷积层进行初步融合获得融合矩阵B；然后，以上下文特征聚合CFAM模块对融合矩阵B进行维度变换、转置以及矩阵乘积操作生成格拉姆矩阵Gram＝F
×
F
T
；最终，根据格拉姆矩阵Gram提取通道注意力模型矩阵C＝αF
″
+B，以将通道注意力模型矩阵C重新经过两个卷积层还原得到最终特征图D，其中，F
″
由F重构获得，α表示学习的权重；先验框运算模块，用于对最终特征图D进行1
×
1卷积生成检测所需通道数，按照检测所需通道数生成视频动作管连接算法，通过损失函数对视频动作管连接算法进行参数优化，利用优化后的视频动作管连接算法提取视频帧序列中先验框及其相应置信度IOU值，显示先验框并标记人体行为。
[0012]可选的，如上任一所述的基于2维和3维CNN的人体行为检测系统，其中，所述输入模块与特征提取模块之间还设置有数据增强模块，用于对输入的帧图像进行随机抖动、随机旋转和/或随机色域操作以扩充样本量，并将图片的尺寸统一放缩到224
×
224，再将图片中各像素值分别除以255进行归一化处理。
[0013]有益效果
[0014]本申请通过输入模块接收视频帧序列，并提取其中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于2维和3维CNN的人体行为检测方法，其特征在于，步骤包括：第一步，接收视频帧序列，提取其中关键帧；第二步，以Darknet
‑
19作为骨架网络的二维卷积模型提取关键帧所含空间特征，生成位置特征图，以3D
‑
resnet
‑
101作为骨架网络的三维卷积模型提取视频帧序列所含时空特征，生成时空特征图；第三步，对位置特征图和时空特征图进行concat拼接获得拼接特征矩阵A，并将拼接所得拼接特征矩阵A输入至两个卷积层进行初步融合获得融合矩阵B；第四步，以上下文特征聚合CFAM模块对融合矩阵B进行维度变换、转置以及矩阵乘积操作生成格拉姆矩阵Gram＝F
×
F
T
；第五步，根据格拉姆矩阵Gram提取通道注意力模型矩阵C＝αF
″
+B，其中，F
″
由F重构获得，α表示学习的权重；第六步，将通道注意力模型矩阵C重新经过两个卷积层还原得到最终特征图D；第七步，对最终特征图D进行1
×
1卷积生成检测所需通道数，按照检测所需通道数生成视频动作管连接算法，通过损失函数对视频动作管连接算法进行参数优化，利用优化后的视频动作管连接算法提取视频帧序列中先验框及其相应置信度IOU值，显示先验框并标记人体行为。2.如权利要求1所述的基于2维和3维CNN的人体行为检测方法，其特征在于，所述第一步中，视频帧序列的帧数为8帧或16帧，每个视频帧序列中分别仅提取其中最后一帧作为关键帧。3.如权利要求1
‑
2所述的基于2维和3维CNN的人体行为检测方法，其特征在于，还在第二步之前对视频帧序列以及关键帧的图像进行数据增强处理，包括：对输入的帧图像进行随机抖动、随机旋转和/或随机色域操作以扩充样本量。4.如权利要求3所述的基于2维和3维CNN的人体行为检测方法，其特征在于，所述第二步中，还在提取关键帧所含空间特征、提取视频帧序列所含时空特征之前：将图片的尺寸统一放缩到224
×
224，并除以255进行归一化处理。5.如权利要求1
‑
4所述的基于2维和3维CNN的人体行为检测方法，其特征在于，所述位置特征图为[C
″×
H
′×
W
′
]，时空特征图为[C
′×
H
′×
W
′
]，其中，C
″
表示位置特征图的通道数，C
′
表示时空特征图的通道数，H
′
表示特征图的高度，W
′
表示特征图的宽度；拼接特征矩阵A∈R
(C
...

【专利技术属性】
技术研发人员：豆飞，魏运，田青，朱鸿涛，臧烁，谢莎婷，白文飞，刘洁，宁尧，赵丽媛，张正，
申请(专利权)人：北京市地铁运营有限公司技术创新研究院分公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人