一种基于视频的危险驾驶行为检测方法和检测系统技术方案

技术编号:28710742 阅读:53 留言:0更新日期:2021-06-06 00:02
本发明专利技术公开了一种基于视频的危险驾驶行为检测方法,包括以下步骤:1、采集驾驶员驾驶视频图像序列并计算对应的光流图序列;2、采用2D CNN提取驾驶员视频中的空间特征和时间特征;3、采用基于LSTM的注意力模型计算显著性空间特征和显著性时间特征;4、采用基于三级级联ConvLSTM网络的深度特征提取网络,根据显著性空间特征和显著性时间特征,从空间角度和时间角度分别获取危险驾驶行为概率向量;计算融合空间时间的危险驾驶行为概率向量,并获取危险驾驶行为类别检测结果。该方法能够避免因过多关注冗余特征而导致检测精度低下的问题,同时通过对异常驾驶动作的时空信息进行建模,显著提高了其检测性能。提高了其检测性能。提高了其检测性能。

【技术实现步骤摘要】
一种基于视频的危险驾驶行为检测方法和检测系统


[0001]本专利技术属于机器视觉
,具体涉及一种根据车载视频检测驾驶员危险驾驶行为的方法和系统。

技术介绍

[0002]驾驶员的危险驾驶行为是交通事故的主要原因。为了防止危险驾驶造成交通事故的严重后果,有必要对危险驾驶行为进行有效监控。
[0003]驾驶行为检测技术近年来随着计算机视觉技术的不断发展,很多研究者将其运用到计算机视觉领域并取得了很好的结果。基于手工特征的危险驾驶行识别方法主要依赖于手工设计的特征,主要是利用局部特征子对视频进行表示。其中比较流行的方法是基于稠密轨迹的危险驾驶行为检测方法,该方法将得到的运动轨迹周围的梯度方向直方图,光流直方图以及运动边界直方图,通过利用词袋模型或者其变种进行编码,从而用于驾驶行为识别。然而,手工设计的特征仅仅利用了局部的上下文信息,而且一般只能对较短的时序进行建模,所以在面临复杂行为建模时缺少判别力。由于深度卷积网络在图片识别任务上的成功,研究者开始考虑利用深度学习进行基于视频的驾驶行为识别和建模。较为流行的方法是3D的卷积神经网络,其将原始的空间维度2D卷积扩展到增加了时间维度的3D卷积。但模型复杂度增加的同时,也增加了训练的复杂度,模型训练需要较大的数据量或者3D卷积核的分解。另一个较为流行的方法是基于双流的卷积神经网络,其利用RGB图像和光流图像训练两个不同的网络,以此达到对表观信息和运动信息分别建模的目的。不过,该方法也存在着不足之处,在对运动信息建模的时,利用叠加的光流图像作为输入,这种做法仅能对短时的运动进行建模,对于长时间的动作其网络检测效果低下。此外,传统两流卷积网络动作识别算法其生成的特征图存在大量的信息冗余,不能专注于驾驶员驾驶行为的检测,于是有学者将注意力机制运用在双流卷积网络动作识别算法中。但是现有的注意力机制模型,只是在当前帧的位置上采用注意力机制,并没有考虑到周围或者全局视频帧的上下文信息,这导致了网络关注非显著性的运动区域或视频帧信息,从而降低了驾驶行为识别的精确度。

技术实现思路

[0004]专利技术目的:针对现有技术中存在的问题,本专利技术提供一种根据车载视频检测驾驶员危险驾驶行为的方法,该方法能够对驾驶员的危险驾驶行为进行检测和分类。
[0005]技术方案:本专利技术一方面公开了一种基于视频的危险驾驶行为检测方法,所述视频为驾驶员驾驶时的视频;所述方法包括构建阶段、训练阶段和检测阶段,所述构建阶段包括:
[0006]S1、采集视频帧,构成待检测视频片段;所述待检测视频片段为长度为T的驾驶员驾驶时的视频图像序列V,V=[v1,v2,

,v
t
,

v
T
];其中v
t
∈R
w
×
h
×
c
,表示视频图像序列中的第t帧图像,w、h分别为视频图像的宽和高,c表示图像色彩空间的通道数;
[0007]S2、对S1得到的待检测视频片段,计算相邻帧的光流,构成光流图序列F=[f1,f2,

,f
t
,

f
T
],其中f
t
∈R
w
×
h
×
2L
,L为光流算法相关的特征通道数;光流计算时每个方向的输出通道数均为L,垂直与水平两个方向合在一起为2L;
[0008]S3、将视频图像序列V中的每帧图像划分为K
×
K个子区域,采用空间2D卷积神经网络提取V中每帧图像每个子区域的空间特征F
S
(t,k),组合得到视频图像序列对应的空间特征:F
S
=[F
S
(1),F
S
(2),

,F
S
(t),

,F
S
(T)],其中F
S
(t)表示视频图像序列中的第t帧图像的空间特征,F
S
(t)=[F
S
(t,1),F
S
(t,2),

,F
S
(t,k),

,F
S
(t,K2)],L1为空间特征的长度;k表示视频图像中子区域的序号,k=1,2,

,K2;每帧空间特征图的宽、高均为K1;
[0009]S4、采用时间2D卷积神经网络提取光流图序列F对应的时间特征F
M
:F
M
=[F
M
(1),F
M
(2),

,F
M
(t),

,F
M
(T)],其中F
M
(t)表示视频图像序列中的第t帧图像的时间特征图,每帧时间特征图的宽、高均为K2,L2为时间特征的长度;
[0010]S5、对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域D
t
;统计第t帧图像中与D
t
交集不为空的子区域个数N
t
;计算每个子区域的驾驶员区域权重,第t帧图像第k个子区域的驾驶员区域权重D
ω
(t,k)为:
[0011][0012]S6、建立基于LSTM的空间注意力模型,所述空间注意力模型用于提取每帧图像每个子区域的空间权重所述空间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像第k个子区域的特征F
S
(t,k)和上一帧LSTM细胞隐藏状态LSTM的输出细胞状态为即:
[0013][0014]其中W
α
,W
αf
,W
αh
分别为空间注意力模型中输出门、遗忘门、输入门的权重矩阵,b
α1
,b
α2
分别为空间注意力模型的输入门和输出门的偏置项;
[0015]S7、建立基于LSTM的时间注意力模型,所述时间注意力模型用于提取每帧图像的时间权重所述时间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像的时间特征F
M
(t)和上一帧LSTM细胞隐藏状态LSTM的输出细胞状态为即:
[0016]其中W
β
,W
βf
,W
βh
分别为时间注意力模型中输出门、遗忘门、输入门的权重矩阵,b
β1
,b
β2
分别为时间注意力模型的输入门和输出门的偏置项;
[0017]S8、计算各子区间归一化空间权重S8、计算各子区间归一化空间权重
[0018]对视频图像序列V中的T帧图像,更新每一帧图像的归一化空间权重,所述更新过
程为最小化第一损失函数Loss
D
:更新后的归一化空间权重为α
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频的危险驾驶行为检测方法,所述视频为驾驶员驾驶时的视频;所述方法包括构建阶段、训练阶段和检测阶段,其特征在于,所述构建阶段包括:S1、采集视频帧,构成待检测视频片段;所述待检测视频片段为长度为T的驾驶员驾驶时的视频图像序列V,V=[v1,v2,

,v
t
,

v
T
],其中v
t
∈R
w
×
h
×
c
,表示视频图像序列中的第t帧图像,w、h分别为视频图像的宽和高,c表示图像色彩空间的通道数;S2、对S1得到的待检测视频片段,计算相邻帧的光流,构成光流图序列F=[f1,f2,

,f
t
,

f
T
],其中f
t
∈R
w
×
h
×
2L
,L为光流算法相关的特征通道数;S3、将视频图像序列V中的每帧图像划分为K
×
K个子区域,采用空间2D卷积神经网络提取V中每帧图像每个子区域的空间特征F
S
(t,k),组合得到视频图像序列对应的空间特征:F
S
=[F
S
(1),F
S
(2),

,F
S
(t),

,F
S
(T)],其中F
S
(t)表示视频图像序列中的第t帧图像的空间特征,F
S
(t)=[F
S
(t,1),F
S
(t,2),

,F
S
(t,k),

,F
S
(t,K2)],L1为空间特征的长度;k表示视频图像中子区域的序号,k=1,2,

,K2;每帧空间特征图的宽、高均为K1;S4、采用时间2D卷积神经网络提取光流图序列F对应的时间特征F
M
:F
M
=[F
M
(1),F
M
(2),

,F
M
(t),

,F
M
(T)],其中F
M
(t)表示视频图像序列中的第t帧图像的时间特征图,每帧时间特征图的宽、高均为K2,L2为时间特征的长度;S5、对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域D
t
;统计第t帧图像中与D
t
交集不为空的子区域个数N
t
;计算每个子区域的驾驶员区域权重,第t帧图像第k个子区域的驾驶员区域权重D
ω
(t,k)为:S6、建立基于LSTM的空间注意力模型,所述空间注意力模型用于提取每帧图像每个子区域的空间权重所述空间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像第k个子区域的特征F
S
(t,k)和上一帧LSTM细胞隐藏状态LSTM的输出细胞状态为即:其中W
α
,W
αf
,W
αh
分别为空间注意力模型中输出门、遗忘门、输入门的权重矩阵,b
α1
,b
α2
分别为空间注意力模型的输入门和输出门的偏置项;S7、建立基于LSTM的时间注意力模型,所述时间注意力模型用于提取每帧图像的时间权重所述时间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像的时间特征F
M
(t)和上一帧LSTM细胞隐藏状态LSTM的输出细胞状态为即:其中W
β
,W
βf
,W
βh
分别为时间注意力模型中输出门、遗忘门、输入门的权重矩阵,b
β1
,b
β2
分别为时间注意力模型的输入门和输出门的偏置项;
S8、计算各子区间归一化空间权重S8、计算各子区间归一化空间权重对视频图像序列V中的T帧图像,更新每一帧图像的归一化空间权重,所述更新过程为最小化第一损失函数Loss
D
:更新后的归一化空间权重为α
w
(t,k);计算视频图像序列中每帧图像的显著性空间特征S
t
:S
t
=[α
w
(t,1)F
S
(t,1),


w
(t,k)F
S
(t,k),


w
(t,K2)F
S
(t,K2)],[,]表示向量拼接;S9、计算各帧图像归一化时间权重β
w
(t):计算视频图像序列中每帧图像的显著性时间特征M
t
:M
t
=β
w
(t)F
M
(t),S10、建立基于三级ConvLSTM级联的深度空间特征提取网络,所述深度空间特征提取网络的输入为显著性空间特征S
t
,输出为S
t
对应的第一危险驾驶行为概率向量;所述深度空间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性空间特征S
t
,第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出三级ConvLSTM单元的输出拼接为深度空间特征ConvLSTM单元的输出拼接为深度空间特征所述输出层采用Softmax函数根据获取第t帧图像的第一危险驾驶行为概率向量P
tS
:其中是第t帧图像为第n类危险驾驶行为的概率,其中T表示矩阵的转置,ω
n
为输出层参数,n=1,2,

,N;S11、建立基于三级ConvLSTM级联的深度时间特征提取网络,所述深度时间特征提取网络的输入为显著性时间特征M
t
,输出为M
t
对应的第二危险驾驶行为概率向量;所述深度时间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性时间特征M
t
,第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出三级ConvLSTM单元的输出拼接为深度时间特征所述输出层采用Softmax函数根据获取第t帧图像的第二危险驾驶行为概率向量P
tM
:其中是第t帧图像为第n类危险驾驶行为的概率,
其中T表示矩阵的转置,υ
n
为输出层参数,门=1,2,

,N;所述训练阶段包括:S12、构建数据集,并将其分为训练集和验证集;使用训练集和验证集训练空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数;所述检测阶段包括:S13、采集驾驶员驾驶视频;连续读取T1帧图像构成预待测视频图像序列判断预待测视频图像序列中是否存在运动目标,若存在运动目标则继续读取T2帧视频图像与构成长度为T的待测视频图像序列V
d
,并根据步骤S2的方法计算V
d
对应的光流图序列F
d
;如果中不存在运动目标,清空数据,重新读取T1帧视频图像;T1+T2=T;根据步骤S3的方法获取V
d
中每帧图像每个子区域的空间特征F
ds
(t,k);根据步骤s4的方法获取V
d
中每帧图像的时间特征F
dM
(t);根据步骤S5的方法计算V
d
中每帧图像每个子区域的驾驶员区域权重D

(t,k);采用训练好的空间注意力模型计算V
d
中每帧图像每个子区域的空间权重采用训练好的时间注意力模型计算V
d
中每帧图像的时间权重根据步骤S8的方法计算V
d
中每帧图像的显著性空间特征S
dt
;根据步骤S9的方法计算V
d
中每帧图像的显著性时间特征M
dt
;将S
dt
输入训练好的深度空间特征提取网络中,获取S
dt
对应的第一危险驾驶行为概率向量将M
dt
输入训练好的深度时间特征提取网络中,获取M
dt
对应的第二危险驾驶行为概率向量计算融合空间时间的危险驾驶行为概率向量计算融合空间时间的危险驾驶行为概率向量其中为:为:分别为和中的第n个元素;根据获取危险驾驶行为类别检测结果。2.根据权利要求1所述的危险驾驶行为检测方法,其特征在于,所述步骤S2中采用TV

L1算法提取视频序列图像中的光流图,构成光流图序列。3.根据权利要求1所述的危险驾驶行为检测方法,其特征在于,所述步骤S3中的空间2D卷积神经网络、S4中的时间2D卷积神经网络均采用已训练好的VGG

16中最后一层卷积层,即卷积核为3
×...

【专利技术属性】
技术研发人员:宋建新汪兴伟
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1