当前位置: 首页 > 专利查询>四川大学专利>正文

基于时空和运动深度学习的驾驶员行为识别方法及设备技术

技术编号:35993503 阅读:58 留言:0更新日期:2022-12-17 23:09
本发明专利技术公开了一种基于时空和运动深度学习的驾驶员行为识别方法及设备,属于智能交通技术领域和计算机视觉领域,包括获取驾驶员行为视频段,并将视频段划分为训练集和测试集;对训练集和测试集的视频段进行帧采样,获得视频帧,并对视频帧进行图像增强;并基于训练集中进行图像增强后的视频帧训练得到基于时空和运动特征深度学习的驾驶员行为识别网络;将测试集中进行图像增强后的视频帧输入到训练好的驾驶员行为识别网络中,并输出驾驶行为识别结果,通过扩展时空维度的等效感受野有效地提取全局时空特征,并且联合激发原始特征的运动模式和显著时空特征,迫使网络关注视频中最具判别力的特征,提升了驾驶行为的识别准确率。率。率。

【技术实现步骤摘要】
基于时空和运动深度学习的驾驶员行为识别方法及设备


[0001]本专利技术涉及智能交通
和计算机视觉领域,特别涉及一种基于时空和运动深度学习的驾驶员行为识别方法及设备。

技术介绍

[0002]交通事故是世界上最严重的公共问题之一。在导致交通事故的诸多因素中,分心驾驶行为约占80%,NHTSA(国家公路交通安全管理局)将分心驾驶行为定义为分散驾驶员注意力的任何活动,包括打电话、发短信、饮食、与车内人员交谈以及调整收音机等,因此,驾驶员行为识别是驾驶员监控系统中一项关键任务,旨在识别驾驶员的不同驾驶行为,通过驾驶员行为识别,驾驶员行为监控系统可以实时捕获和识别分心驾驶行为,从而及时提供警告,防止交通事故。
[0003]随着深度学习的快速发展,卷积神经网络已经被证明了其图像处理领域的优越性,基于深度学习的驾驶员行为识别方法受到越来越多研究人员的关注,现有的相关研究可以分为两类:基于单帧图像的驾驶员行为识别和基于视频的驾驶员行为识别。基于单帧图像的驾驶员行为识别通过2DCNN(二维卷积)提取单帧静态图像的特征,因此只能学习空间特征,无法利用视频中的时间信息和运动信息,因此目前的研究主要集中在基于视频的驾驶员行为识别。
[0004]然而,与普通的行为不同,驾驶行为之间非常相似,例如,如何确定驾驶员是在放置物体还是获取物体?这两个动作几乎相同,只是顺序不同。此外,单手安全驾驶和放置/取出物体的身体姿势也是非常相似,只是在身体角度和另一只手在移动方面略有不同。现有的基于视频的驾驶员行为识别方法仍然难以区分这些具有高度相似度的的驾驶行为。这主要是由于两点技术上的不足,第一点是缺乏全局时空特征的提取,现有的方法通常是通过3DCNN(三维卷积)、Conv

RNN实现时空建模,然而由于卷积的局部运算,上述方法过于依赖局部特征而忽略了全局时空特征,而众所周知,上下文感知全局时空信息更有利于判断驾驶员的行为,例如,对于上述单手安全驾驶和放置/取物体的行为,如果我们只是关注一只手是否在方向盘上,而忽略身体的角度和另一只手的行为,就会导致错误的识别。第二点是无法提取最具判断力的特征,难以捕捉驾驶行为之间的细微差异,例如上述的防止/获取物体的动作。虽然有研究通过预计算光流以捕捉驾驶员动作的运动特征。然而,像素级的光流计算量十分巨大,耗费额外的存储,并且这种预计算方法使得光流无法集成到时空建模中。

技术实现思路

[0005]本专利技术的目的在于克服现有技术中所存在的一是缺乏对全局时空特征的提取,导致错误的识别;二是无法提取最具判断力的特征,难以捕捉驾驶行为之间的细微差异,提供一种基于时空和运动深度学习的驾驶员行为识别方法及设备。
[0006]为了实现上述专利技术目的,本专利技术提供了以下技术方案:
[0007]一种基于时空和运动深度学习的驾驶员行为识别方法,包括以下步骤:
[0008]S1:获取驾驶员行为视频段,例将所述视频段划分为训练集和测试集;
[0009]S2:对所述训练集和所述测试集的视频段进行帧采样,获得固定长度的视频帧,并对所述视频帧进行图像增强;
[0010]S3:并基于所述训练集中进行图像增强后的视频帧训练得到基于时空和运动特征深度学习的驾驶员行为识别网络;
[0011]所述驾驶员行为识别网络以ResNet

50为主干,采用全局时空特征模块替代所述ResNet

50残差块中的3
×
3卷积核,形成替换后的残差块;再将运动

时空联合注意力模块插入到所述驾驶员行为识别网络每层的第一个所述替换后的残差块之前,所述运动

时空联合注意力模块包括用于激发原始特征运动模式的双路径运动注意力子模块和用于激发显著时空特征的时空注意力子模块;
[0012]S4:将所述测试集中进行图像增强后的视频帧输入到所述训练好的驾驶员行为识别网络中,并输出驾驶行为识别结果。
[0013]采用上述技术方案,通过将时空可分离卷积块嵌入到一种分层残差连接结构中,扩大了时空维度的等效感受野,有效地提取全局时空特征,从而结合整个视频的上下文信息来识别驾驶行为,增强了所述驾驶员行为识别网络的鲁棒性,提升了驾驶行为的识别准确率,同时,通过联合应用双路径运动注意力和时空注意力激发原始特征的运动模式和显著时空特征,迫使所述的驾驶员行为识别网络关注最具辨别力的特征,从而捕捉驾驶行为间得到细微差异,从而提高了对具有高相似度的驾驶行为的识别能力。
[0014]作为本专利技术的优选方案,所述步骤S1包括预先获取驾驶室的监控视频,将所述监控视频划分为1S≤t≤3S的所述驾驶员行为视频段。
[0015]作为本专利技术的优选方案,所述步骤S2包括:将长度不等的所述视频段均匀的划分为T个子段,对于所述训练集的数据,从每个子段中随机地选择一帧,对于所述测试集的数据,从每个子段的固定位置处选择一帧,对所述训练集的视频帧进行随机反转和随机剪裁,得到所述训练集中进行图像增强后的视频帧,对所述测试集的视频帧进行中心裁剪,得到所述测试集中进行图像增强后的视频帧。
[0016]作为本专利技术的优选方案,所述步骤S3中,所述全局时空特征模块包括通道分割层、三层时空卷积(STS Conv)层和特征维度连接(Concat)层;其中,所述时空卷积层由一层用于时间建模的卷积核大小为3的一维深度可分离卷积(1D DS Conv)层和一层用于空间建模的卷积核大小为3
×
3的二维卷积(2DConv)层组成;每层所述时空卷积层是并连的,且相邻的所述时空卷积层之间包括一层特征相加层,从而形成一种分层残差连接结构,这种结构能扩展时空维度的等效感受野,从而捕获全局时空特征;
[0017]所述双路径运动注意力子模块包括用于降维的二维卷积层、时间维度分割层、特征差异性运动建模层、特征相关性运动建模层、用于提升运动特征维度的二维卷积层、空间平均化压缩层、空间最大化压缩层、用于恢复维度的二维卷积层、Sigmoid层、特征相乘层和特征相加层;其中,所述特征差异性运动建模层由特征相减层和特征维度连接层组成;所述特征相关性运动建模层由相关性张量计算层、Soft

Argmax层、一层二维卷积层和特征维度连接层组成;所述特征差异性运动建模层和所述特征相关性运动建模层是并连的,二者之间包括一层所述特征相加层;所述空间平均化压缩层和所述空间最大化压缩层也是并连的,二者之间包括一层所述特征相加层;
[0018]所述时空注意力子模块包括张量形状重塑层、通道平均化压缩层、通道最大压缩化层、特征维度连接层、用于学习时空特征依赖性的三维卷积层、Sigmoid层、张量形状重塑层、特征相乘层和特征相加层;其中,所述通道平均化压缩层和通道最大压缩化层是并连的。
[0019]作为本专利技术的优选方案,所述驾驶员行为识别网络从上至下包括:1个所述运动

时空联合注意力模块加3个所述替换后的残差块层、1个所述运动
...

【技术保护点】

【技术特征摘要】
1.一种基于时空和运动深度学习的驾驶员行为识别方法,其特征在于,包括以下步骤:S1:获取驾驶员行为视频段,并将所述视频段划分为训练集和测试集;S2:对所述训练集和所述测试集的视频段进行帧采样,获得视频帧,并对所述视频帧进行图像增强;S3:并基于所述训练集中进行图像增强后的视频帧训练得到基于时空和运动特征深度学习的驾驶员行为识别网络;所述驾驶员行为识别网络以ResNet

50为主干,采用全局时空特征模块替代所述ResNet

50残差块中的3
×
3卷积核,形成替换后的残差块;再将运动

时空联合注意力模块插入到所述驾驶员行为识别网络每层的第一个所述替换后的残差块之前,所述运动

时空联合注意力模块包括用于激发原始特征运动模式的双路径运动注意力子模块和用于激发显著时空特征的时空注意力子模块;S4:将所述测试集中进行图像增强后的视频帧输入到所述训练好的驾驶员行为识别网络中,并输出驾驶行为识别结果。2.根据权利要求1所述的一种基于时空和运动深度学习的驾驶员行为识别方法,其特征在于,所述步骤S1包括预先获取驾驶室的监控视频,将所述监控视频划分为1S≤t≤3S的所述驾驶员行为视频段。3.根据权利要求1所述的一种基于时空和运动深度学习的驾驶员行为识别方法,其特征在于,所述步骤S2包括:将长度不等的所述视频段均匀的划分为T个子段,对于所述训练集的数据,从每个子段中随机地选择一帧,对于所述测试集的数据,从每个子段的固定位置处选择一帧,并对所述训练集的视频帧进行随机反转和随机剪裁,得到所述训练集中进行图像增强后的视频帧,对所述测试集的视频帧进行中心裁剪,得到所述测试集中进行图像增强后的视频帧。4.根据权利要求3所述的一种基于时空和运动深度学习的驾驶员行为识别方法,其特征在于,所述步骤S3中,所述全局时空特征模块包括通道分割层、3层时空卷积层和特征维度连接层;其中,每层所述时空卷积层由1层用于时间建模的卷积核大小为3的一维深度可分离卷积层和1层用于空间建模的卷积核大小为3
×
3的二维卷积层组成;每层所述时空卷积层是并连的,且相邻的所述时空卷积层之间包括一层特征相加层,从而形成一种分层残差连接结构;所述双路径运动注意力子模块包括用于降维的二维卷积层、时间维度分割层、特征差异性运动建模层、特征相关性运动建模层、用于提升运动特征维度的二维卷积层、空间平均化压缩层、空间最大化压缩层、用于恢复维度的二维卷积层、Sigmoid层、特征相乘层和特征相加层;其中,所述特征差异性运动建模层由特...

【专利技术属性】
技术研发人员:马放之刘艳丽邢冠宇
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1