基于深度学习视频分类的道路通行异常状态检测方法及装置制造方法及图纸

技术编号：28147537 阅读：15 留言：0更新日期：2021-04-21 19:34

本发明专利技术提供了基于深度学习视频分类的道路通行异常状态检测方法及装置，方法包括：对每段采集过来的长视频，均匀划分为一组预设时长的视频片段；标注每段视频片段中道路通行状态是否异常；将标注的每段视频作为样本对模型进行训练，得到训练模型；确定图像的特征的帧间动态信息；确定图像特征的时空信息；将帧间信息提取模块和时空信息提取模块融入至ResNet的瓶颈模块中，得到视频特征提取模块；将提取出的特征输入到全连接层中，进行时序池化；将时序池化的特征，输入训练模型中，输出该视频片段为异常状态的概率p；依据概率p确定视频信息是否异常。时空特征提取模块解决了长视频时序信息的缺失问题，同时避免了3D卷积计算量大的缺点。量大的缺点。量大的缺点。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习视频分类的道路通行异常状态检测方法及装置

[0001]本专利技术涉及视频检测
，特别是基于深度学习视频分类的道路通行异常状态检测方法及装置。

技术介绍

[0002]目前基于视频分类的道路通行异常状态检测，对分类精度和算法效率的要求越来越高，但由于复杂交通状况和天气等因素的制约，常常无法有效识别道路通行异常状态，并且消耗很多计算资源。
[0003]对于道路通行拥堵进行分类，主要有3类方法：
[0004](1)采用2D卷积神经网络来逐帧提取特征，然后利用一定时间段内的平均值池化或者最大值池化来获取特征，来表示该时间段的视频片段。这种较为朴素的统计学特征会丢失视频的大部分时空信息，忽略了视频帧之间的动态信息，使视频分类精度受到很大负面影响。
[0005](2)对(1)中朴素的时空特征的提取方法进行改进，另外引入了光流，补充了视频帧之间的动态信息，通过构建两路的卷积神经网络提取光流与RGB视频的特征，用加权平均或者直接平均融合两类特征，得到最终的特征。这种方法需要首先提取光流，这需要大量的计算资源。此外，两种特征提取的过程是相互独立的，最后才通过加权平均或者直接平均的方式进行融合，这样就对整体时空特征的表达能力产生了不利影响。同时该类方法依然存在(1)中的问题。
[0006](3)采用3D或(2+1)D卷积神经网络进行时序特征提取以及用光流进行帧间动态信息的提取。改善了(1)中时空特征提存在的问题，然而对于时空特征提取通常需要使用多个3D或(2+1)D卷积神经网络，这样就无法...

【技术保护点】

【技术特征摘要】
1.基于深度学习视频分类的道路通行异常状态检测方法，其特征在于，所述方法包括：采用道路监控摄像头采集道路通行状态的视频信息；对每段采集过来的长视频，均匀划分为一组预设时长的视频片段；标注每段视频片段中道路通行状态是否异常；将标注的每段视频作为样本对模型进行训练，得到训练模型；将每个视频片段分为T段，每段中随机提取一帧图像，组成数量为T的一组图像；构建帧间动态信息提取模块，并确定图像的特征的帧间动态信息；构建时空信息提取模块，并确定图像特征的时空信息；将帧间信息提取模块和时空信息提取模块融入至ResNet的瓶颈模块中，得到视频特征提取模块；采用所述视频特征提取模块对视频片段的特征进行提取；将提取出的特征输入到全连接层中，进行时序池化；将时序池化的特征，输入所述训练模型中，输出该视频片段为异常状态的概率p；依据所述概率p确定视频信息是否异常。2.根据权利要求1所述的方法，其特征在于，所述构建帧间动态信息提取模块，并确定图像的特征的帧间动态信息的步骤，包括：对输入的图像的特征进行1
×
12D卷积操作；将特征分为T段；其中，每段代表t时刻的图像特征X(t)；通过以下公式确定帧间动态信息：O(t)＝conv2d(X(t+1))
–
X(t)；其中，conv2d是一个3
×
3的depthwise卷积；将O(0)设置为0，将所有帧间信息并联得到O(T)特征；使用全局池化层对帧间动态信息进行融合；采用1x12D卷积使通道扩增，采用sigmoid激活函数进行归一化，得到每个通道的激励值；对每个通道进行加权，输出具有帧间动态信息特征；将输出的具有帧间动态信息的特征与输入特征相加，输出目标特征，其中，所述目标特征为包含帧间动态信息和帧内静态信息的特征。3.根据权利要求1所述的方法，其特征在于，所述构建时空信息提取模块，并确定图像特征的时空信息的步骤，包括：对输入的图像的特征在C维度上划分为4段，其中，每一段采用1D卷积提取时序特征；采用3x32D卷积提取空间特征；将所述时序特征和所述空间特征进行融合。4.根据权利要求1所述的方法，其特征在于，所述将提取出的特征输入到全连接层中，进行时序池化的步骤，包括：将提取出的特征输入到全连接层中，并进行时序池化；采用BinaryCross
‑
Entropyloss进行优化：y＝Sigmoid(x)；Bceloss＝
‑
ylogt
‑
(2
‑
y)log(1
‑
t)；
其中，y表示输出的概率，x代表图像的特征，t表示真实标签即0或1，Bceloss表示二元交叉熵损失函数；若该视频片段为异常状态，则t＝1，若该视频片段为非异常状态，则t＝0。5.根据权利要求1所述的方法，其特征在于，所述依据所述概率p确定视频信息是否异常的步骤，包括：当所述概率p大于或者等于0.5的情况下，确定视频信息异常；在所述概率小于0.5的情况下，确定视频信息为非异常状态。6.基于深度学习视频分类的...

【专利技术属性】
技术研发人员：李嘉，张南蛟，黎艳，张珂溢，梁豪，林世奕，
申请(专利权)人：四川铁投信息技术产业投资有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人