一种基于3D卷积的行人异常行为识别方法技术

技术编号:20867716 阅读:37 留言:0更新日期:2019-04-17 09:35
本发明专利技术公开一种基于3D卷积的行人异常行为识别方法,包括步骤:S1:创建一个包含打架斗殴、遛狗、摔倒等异常行为的数据集;S2:结合最新的视频行为识别方案,构建一个兼顾精度与速率的3D卷积神经网络;S3:对数据集中图像进行预处理后送入3D卷积神经网络,得到视频异常行为识别模型;S4:输入测试行人监控视频,输出异常行为类型。本发明专利技术所述识别方法将轻量级的2D卷积网络MobileNet思想迁移到3D网络中,可以在保持识别性能的基础上降低计算成本;同时,采用自适应池化层与稀疏时间采样策略,可以减少连续帧中包含大量冗余的信息与模糊噪声。

【技术实现步骤摘要】
一种基于3D卷积的行人异常行为识别方法
本专利技术属于视频处理
,主要涉及行人异常行为识别,具体来说,即基于3D卷积的行人异常行为识别方法。
技术介绍
行为识别在现实生活中有着广泛应用,引起了广大研究团队的兴趣。随着深度学习技术在图像领域的快速发展,研究者开始相信深度学习方法也可以用于视频分析和理解等任务。相比于传统的基于人工特征方法,采用深度学习方法的模型能够自动地获取有意义的分层特征表示。然而,从互联网或者电影中获取的视频片段比之前的标准数据中库中的视频样本更加复杂,这些视频片段包含了大量的运动成分。这些因素使得学习一个有意义的视觉表示更加困难,如何从视频中提取有效的特征仍然是众多研究人员的核心工作。在深度神经网络体系结构中使用3D卷积是一种流行且有效的学习视频特征方法。3D卷积是2D卷积的扩展,具有三维内核,可以沿时间维度卷积。通过简单地替换2D空间卷积核,3D卷积核可用于构建3DCNN,使得模型可以实现端到端的训练。最先进的3DCNN模型,如Res3D和I3D以这种直截了当的方式构建了CNN模型,并使用多层3D卷积来学习强大的视频特征,在多个数据集上实现了最高精度,但是计算代价非常高昂。
技术实现思路
尽管最近的算法着重于提高3DCNN的效率,同时保持其在视频识别任务上的最先进的准确性。例如,3DMF-Net每个残差块内部引入稀疏连接,在精度与速率上取得了一定的成效,但其中的3D卷积依旧有很大的计算量,本专利技术使用MobileNet中的可深度分离卷积思想、宽度乘数以及分辨率乘数进一步减少网络模型的计算量,此外采用自适应池化层与稀疏时间采样策略,重点关注信息量较高的关键帧,丢弃大部分非信息帧,以减少连续帧中包含大量冗余的信息与模糊噪声。本专利技术采取如下技术方案:一种基于3D卷积的行人异常行为识别方法,包括步骤:S1:创建一个包含异常行为的数据集;S2:结合视频行为识别方案,构建一个兼顾精度与速率的3D卷积神经网络;S3:对数据集中图像进行预处理后送入3D卷积神经网络,得到视频异常行为识别模型;S4:输入测试监控视频,输出异常行为类型。所述的,所述步骤S3具体实施步骤如下:S3.1:对训练视频大小调整分辨率,使用稀疏采样方案在长视频序列上提取短片段,然后在各片段的时间维度上进行均匀采样,最终将各片段中的采样帧拼接为一组连续帧;S3.2:将输入图像送入3D卷积神经网络,通过一系列三维卷积操作,非线性激活函数,三维池化操作层层堆叠,逐层从原始数据获取高层语义信息,输出学习的特征向量;S3.3:计算输出层实际值和输出值间的偏差,根据反向传播算法中的链式法则,得到每个隐藏层的误差,根据每层的误差调整各层的参数,完成网络的反向传播过程;S3.4:不断迭代前两步中的正向传播和反向传播过程,直至网络收敛。优选地,所述数据集主要筛选收集自KTH、CASIA、Kinetics、UCF-101等数据集以及网络视频数据,包含骑自行车、打架斗殴、遛狗、摔倒等异常行为与正常行走行为,每类分为训练集、验证集和测试集。优选地,所述网络结构,将3D多纤维单元加入ResNet-18网络中,并将平均池化层替换为自适应池化层,用于聚合对最终任务具有辨别力的帧的信息。优选地,所述3D卷积层,采用深度可分离卷积思想,通过在空间域(相当于2DCNN)加上3×1×1的卷积核上模拟3×3×3卷积,以达到进一步减小计算量的目的。以下是本专利技术一种优选方案:一种基于3D卷积的行人异常行为识别方法,按如下步骤进行:1.将训练视频大小调整为224×224分辨率,使用稀疏采样方案在长视频序列上提取短片段:给定视频V,我们将其分成相等持续时间的K个段{S1,S2,...,SK}。然后,在各片段的时间维度上进行均匀采样,得到采样帧T1,T2,…,TK,拼接为一个张量{T1,T2,...,TK}作为模型的输入;2.建立基于3D卷积的行人异常行为识别的网络结构,将将分解为空间域卷积串联时间域卷积的3D多纤维单元加入ResNet-18网络中,并将平均池化层替换为自适应池化层,稍微调整通道的数量,用于降低处理视频的GPU内存成本;3.将输入图像送入3D卷积神经网络进行训练,训练过程中,初始学习率为0.1,衰减因子为0.1;使用动量随机梯度下降作为优化器学习网络参数,动量设置为0.9,权重衰减设置为0.0001;batchsize设置为32;4.使用交叉熵损失函数开算计算输出层实际值yi∈{1,2,…,C}和输出值hj,j∈{1,2,…,C}间的偏差,具体形式如下:根据反向传播算法中的链式法则,得到每个隐藏层的误差,根据每层的误差调整各层的参数,完成网络的反向传播过程,不断迭代正向传播和反向传播过程,epoch设置为100。5.测试并验证利用上述步骤可训练得到异常检测模型,输入测试监控视频,输出异常行为类型,并进行精度与速度测试。本专利技术与现有技术相比有如下优点:1.本专利技术将轻量级的2D卷积网络MobileNet思想迁移到3D网络中,可以在保持识别性能的基础上降低计算成本。2.本专利技术采用自适应池化层与稀疏时间采样策略,可以减少连续帧中包含大量冗余的信息与模糊噪声。附图说明下面结合附图对本专利技术作进一步描述。图1是视频异常行为识别框架图;图2是设计的模型架构图;图3是自适应池化层的结构图。具体实施方式以下参考附图,对本专利技术的进一步详细阐述。本专利技术中的视频异常行为识别整体框架如图1所示,可以看到行为识别主要可以分为三个部分:数据采集、数据预处理以及分类器的训练和使用。首先是数据采集步骤,本专利技术创建了一个较小的异常行为数据集,主要筛选收集自KTH、CASIA、Kinetics、UCF-101等数据集以及网络视频数据,包含骑自行车、滑滑板/平衡车、打架斗殴、遛狗、摔倒5类异常行为与正常行走1类正常行为的6类数据集,与Kinetics数据集类似,每类分为训练集、验证集和测试集,分别包含大约400、30、70个视频片段,每个视频片段持续时间为10s左右。然后对数据集中的视频进行提取帧、重设尺寸等预处理操作。接下来是行为特征提取阶段,本专利技术基于ResNet网络的设计思想,用3D多纤维单元替换原结构中的残差单元,构建了一个包含18层卷积层的网络,具体架构如图2所示,在图2中,输入为数据集数据,经过一系列卷积与池化操作最终由全连接层输出预测结果。此外,本专利技术将其中的平均池化层替换为自适应池化层,该模块通过仅聚合对最终任务具有辨别力的帧的信息来选择性地聚合帧特征,而忽略其余的冗余帧。如图3所示,自适应池化模块通过递归计算两个操作来实现池化。第一个操作表示为fimp,使用三层多层感知器预测判别重要性,输出每帧的判别重要性分数;第二个操作是加权平均合并操作,通过利用当前帧的特征及其判别重要性分数来聚合先前合并的特征,并输出计算的新特征。由于后续操作仅依赖于标准的线性和非线性操作,因此它既计算快速,又可以轻松地整合到CNN网络的端到端学习中。最近,S3D和R(2+1)D采用深度可分离卷积思想,通过在空间域(相当于2DCNN)加上3×1×1的卷积核上模拟3×3×3卷积,不仅提高了模型的训练速度,同时实现了更好的精度,本专利技术将部分或全部多纤维模块中的3×3×3卷积核加以分解,以达到进一步减小计算本文档来自技高网...

【技术保护点】
1.一种基于3D卷积的行人异常行为识别方法,其特征在于,包括步骤:S1:创建包含异常行为的数据集;S2:结合视频行为识别方案,构建3D卷积神经网络;S3:对所述数据集中的图像进行预处理,送入所述3D卷积神经网络,得到视频异常行为识别模型;S4:输入测试监控视频,输出异常行为类型。

【技术特征摘要】
1.一种基于3D卷积的行人异常行为识别方法,其特征在于,包括步骤:S1:创建包含异常行为的数据集;S2:结合视频行为识别方案,构建3D卷积神经网络;S3:对所述数据集中的图像进行预处理,送入所述3D卷积神经网络,得到视频异常行为识别模型;S4:输入测试监控视频,输出异常行为类型。2.如权利要求1所述的一种基于3D卷积的行人异常行为识别方法,其特征在于,所述步骤S3具体实施步骤如下:S3.1:对训练视频大小调整分辨率,使用稀疏采样方案在长视频序列上提取短片段,在各短片段的时间维度上进行均匀采样,最终将各短片段中的采样帧拼接为一组连续帧;S3.2:将输入图像送入3D卷积神经网络,通过三维卷积操作,非线性激活函数,三维池化操作层层堆叠,逐层从原始数据获取高层语义信息,输出学习的特征向量;S3.3:计算输出层实际值和输出值间的偏差,根据反向传播算法中的链式法则,得到每个隐藏层的误差,根据每层的误差...

【专利技术属性】
技术研发人员:刘兆森应娜郭春生朱辰都杨鹏李怡菲
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1