一种基于深度学习的电梯轿厢内乘客行为识别方法技术

技术编号:35677804 阅读:14 留言:0更新日期:2022-11-23 14:17
本发明专利技术提供一种基于深度学习的电梯轿厢内乘客行为识别方法。所述基于深度学习的电梯轿厢内乘客行为识别方法,包括以下操作步骤:S1、获取电梯轿厢内原始监控视频数据,对有乘客部分进行筛选和划分,得到包含四种不文明行为和不包含不文明行为的视频段。本发明专利技术提供一种基于深度学习的电梯轿厢内乘客行为识别方法,能够有效地对电梯轿厢内乘客的行为进行分析,同时相比于双流法和3D卷积,在计算量上具有较大优势,通过引入特征通道时域平移模块,在不增加任何训练参数的情况下使得2D卷积具备处理视频数据的能力,在保持较小计算量的前提下,完成当前帧特征与前后帧特征的信息融合,通过2D卷积网络同时提取时空信息用于最终的分类。的分类。

【技术实现步骤摘要】
一种基于深度学习的电梯轿厢内乘客行为识别方法


本专利技术涉及视频信息处理分析领域,尤其涉及一种基于深度学习的电梯轿厢内乘客行为识别方法。

技术介绍

电梯是指服务于建筑物内若干特定的楼层,其轿厢运行在至少两列垂直于水平面或与铅垂线倾斜角小于15
°
的刚性轨道运动的永久运输设备,也有台阶式,踏步板装在履带上连续运行,俗称自动扶梯或自动人行道,服务于规定楼层的固定式升降设备,垂直升降电梯具有一个轿厢,运行在至少两列垂直的或倾斜角小于15
°
的刚性导轨之间。随着城镇化进程的不断推进,高层建筑不断地拔地而起,使得电梯需求量的不断增加,而轿厢式电梯相对封闭,很容易成为不法分子实施暴力行为的场所;此外,由于在搭乘电梯时出现的打架、跳跃、扒门、踹门以及推电动车进电梯等各种不安全行为没有被及时制止,及易造成安全事故的发生;近年来,随着深度学习技术的发展,借助智能监控系统来协助监控人员完成实时有效的监控成为当前发展的趋势,通过行为识别技术高效准确地检测出乘客存在的不安全行为并加以制止,在保障乘客生命财产安全的同时,增加电梯的使用年限。目前,为了解决视频行为识别问题,现有可行的方法有双流法,分别为RGB输入以及光流输入构建卷积网络,然而在RGB特征和光流特征相互独立并且仅通过简单的加权平均来进行融合,使得模型的时序建模能力较差,此外,另一种可行的方法是将2D卷积扩展到3D,采用3D卷积联合学习时间和空间特征,但是3D卷积计算成本较高,在嵌入式平台上的检测效率较差,同时由于具有较多的参数,容易出现过拟合;为了在模型时序建模能力和检测效率上进行权衡,通常采取post

hoc融合或者mid

level时序融合方式,不过会造成一些有用的低层次时序信息在特征提取过程中丢失,总体来说,目前的方法在帧间特征融合上仍存在着不足,识别结果仍待改进;同时在时序建模上需要增加计算成本,在计算效率存在着缺陷。因此,有必要提供一种基于深度学习的电梯轿厢内乘客行为识别方法解决上述技术问题。

技术实现思路

本专利技术提供一种基于深度学习的电梯轿厢内乘客行为识别方法,解决了电梯轿厢视频识别方法时序建模能力较差,计算成本较高的问题。为解决上述技术问题,本专利技术提供的基于深度学习的电梯轿厢内乘客行为识别方法,包括以下操作步骤:S1、获取电梯轿厢内原始监控视频数据,对有乘客部分进行筛选和划分,得到包含四种不文明行为和不包含不文明行为的视频段,再经过抽帧等预处理得到训练样本;S2、构建行为识别网络,网络主体为以改进的二维卷积神经网络ResNet50作为骨
干网络,并且在所述骨干网络中的残差结构中插入提出的特征通道时域平移模块,所述骨干网络用于提取视频中乘客行为的单帧静态特征,所述特征通道时域平移模块插入在每一个残差模块的残差分支上,其通过将上一帧同位置残差单元得到的特征图按一定比例平移到当前特征图中,用来捕捉帧与帧之间的时序特征;S3、对搭建好的神经网络在大型行为识别数据集上做预训练,再在电梯数据集上做微调,得到训练好的乘客行为识别网络模型;S4、获取待检测的电梯监控视频,并进行预处理,将处理后的待识别监控视频作为输入到训练得到的模型中,输出行为分类结果,根据分类结果判断电梯轿厢内是否出现不文明行为。优选的,所述S1中建立电梯轿厢内行为识别模拟数据集,步骤包括:S11、获取含多个模拟乘客行为视频片段,分别对应打闹、跳跃、扒门、踹门和正常5个行为类别;S12、对包含各类行为的视频片段采用抽帧的方式的得到连续的RGB帧序列;S13、将RGB帧序列图像短边缩放到256大小上,接着随机裁剪并缩放到224像素*224像素大小上,在水平方向上以0.5的概率对图像进行翻转;S14、将所有训练样本按预设比例划分为训练集和测试集,得到模拟数据集。优选的,所述S2中,在以视频行为识别网络以改进的ResNet50作为骨干网络,其主要包含4个阶段,50个卷积层的ResNet网络。优选的,所述S2中特征通道时域平移模块插入在骨干网络所有的残差模块的残差分支上,该平移模块将输入特征图在通道维度上,缓存1/8比例通道数的特征图到内存中,同时将该部分特征图用前一帧相同位置的残差模块缓存的特征图进行平移替换,经过残差模块的卷积层、池化层和激活层处理后,完成每一个残差模块的当前帧与之前帧的时空特征提取。优选的,所述S3中,对网络模型在大型数据集上进行预训练,其步骤包括:S31、在公共视频数据集kinetics400和UCF101中使用较大的学习率对网络训练迭代100次;S32、利用预训练得到的参数对网络进行初始化。优选的,所述S3中,在模拟数据集上使用较小的学习率,一半的迭代轮次对网络进行训练,其过程包括:a、对于每一个输入的训练样本,骨干网络得到多帧的时空特征,分类器将多帧时空特征进行平均,得到视频级特征,再经过全连接层,使用softmax激活函数得到分类结果,softmax激活函数的公式如下:其中i和j分别是全连接层第i,j个通道的输出,m为总的行为类别数,S
i
为第i个类别的激活值,即预测为该类别的概率;b、使用标签平滑对分类器层进行正则化,通过在one

hot编码中真实类别的1上减去一个小量,非真实标签的0上加上一个小量,将硬标签变成软标签,达到正则化的作用,防
止过拟合;c、所述分类器网络模型采用交叉熵损失函数作为目标函数,其计算公式为:其中n为视频样本总数,x
i
为第i个视频样本,y
i
为样本x
i
对应的行为类别,f
θ
(x
i
)为网络输出的预测样本类别为y
i
的概率;d、训练过程使用梯度下降算法优化损失函数,并使用余弦退火策略调整学习率,同时使用Warm

up策略,平滑网络收敛过程,学习率调整策略公式为:其中Lr0和Lr
t
分别为初始学习率和第t个迭代轮次时的学习率,T为训练总迭代轮次数。优选的,所述S4中,网络输出分类结果包括:S41、对包含各类行为的视频片段等间隔划分并随机抽帧得到8帧连续的RGB帧序列;S42、将RGB帧序列图像短边缩放到256大小上,接着随机裁剪并缩放到224像素*224像素大小上,在水平方向上以0.5的概率对图像进行翻转;S43、将多帧时空特征进行平均,得到的视频级特征再通过softmax激活函数得到每个类别的得分,选择得分最高的类别作为视频行为分类结果。优选的,所述S1中采集电梯轿厢内乘客的四种异常行为分别为打架、扒门、踹门以及跳跃,录像设备为电梯轿厢内置摄像头,视频分辨率为720*480,帧率为30帧每秒,从所有的视频数据中随机采样70%作为训练集,接着在剩余样本中随机采样10%用作验证集,最终剩余的10%样本用作测试集,完成训练集、验证集和测试集的划分。与相关技术相比较,本专利技术提供的基于深度学习的电梯轿厢内乘客行为识别方法具有如下有益效果:本专利技术提供一种基于深度学习的电梯轿厢内乘客行为识别方法,能够有效地对电梯轿厢内乘客的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的电梯轿厢内乘客行为识别方法,其特征在于,包括以下操作步骤:S1、获取电梯轿厢内原始监控视频数据,对有乘客部分进行筛选和划分,得到包含四种不文明行为和不包含不文明行为的视频段,再经过抽帧等预处理得到训练样本;S2、构建行为识别网络,网络主体为以改进的二维卷积神经网络ResNet50作为骨干网络,并且在所述骨干网络中的残差结构中插入提出的特征通道时域平移模块,所述骨干网络用于提取视频中乘客行为的单帧静态特征,所述特征通道时域平移模块插入在每一个残差模块的残差分支上,其通过将上一帧同位置残差单元得到的特征图按一定比例平移到当前特征图中,用来捕捉帧与帧之间的时序特征;S3、对搭建好的神经网络在大型行为识别数据集上做预训练,再在电梯数据集上做微调,得到训练好的乘客行为识别网络模型;S4、获取待检测的电梯监控视频,并进行预处理,将处理后的待识别监控视频作为输入到训练得到的模型中,输出行为分类结果,根据分类结果判断电梯轿厢内是否出现不文明行为。优选的,所述S1中建立电梯轿厢内行为识别模拟数据集,步骤包括:S11、获取含多个模拟乘客行为视频片段,分别对应打闹、跳跃、扒门、踹门和正常5个行为类别;S12、对包含各类行为的视频片段采用抽帧的方式的得到连续的RGB帧序列;S13、将RGB帧序列图像短边缩放到256大小上,接着随机裁剪并缩放到224像素*224像素大小上,在水平方向上以0.5的概率对图像进行翻转;S14、将所有训练样本按预设比例划分为训练集和测试集,得到模拟数据集。2.根据权利要求1所述的基于深度学习的电梯轿厢内乘客行为识别方法,其特征在于,所述S2中,在以视频行为识别网络以改进的ResNet50作为骨干网络,其主要包含4个阶段,50个卷积层的ResNet网络。3.根据权利要求2所述的基于深度学习的电梯轿厢内乘客行为识别方法,其特征在于,所述S2中特征通道时域平移模块插入在骨干网络所有的残差模块的残差分支上,该平移模块将输入特征图在通道维度上,缓存1/8比例通道数的特征图到内存中,同时将该部分特征图用前一帧相同位置的残差模块缓存的特征图进行平移替换,经过残差模块的卷积层、池化层和激活层处理后,完成每一个残差模块的当前帧与之前帧的时空特征提取。4.根据权利要求1所述的基于深度学习的电梯轿厢内乘客行为识别方法,其特征在于,所述所述S3中,对网络模型在大型数据集上进行预训练,其步骤包括:S31、在公共视频数据集kinetics400和UCF101中使用较大的学习率对网络训练迭代100次;S32、利用预训练得到的参数对网络进行初始化。5.根据权利要求1所述...

【专利技术属性】
技术研发人员:陈本瑶司绍峰俞平戎安心阮利程冯达陈辉冯建平滕启治李郑明李庆柴旭锋
申请(专利权)人:中科卫星应用德清研究院中国科学院微电子研究所
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1