当前位置: 首页 > 专利查询>东南大学专利>正文

基于多任务时空卷积神经网络的视频驾驶员行为识别方法技术

技术编号:21185176 阅读:61 留言:0更新日期:2019-05-22 15:47
本发明专利技术提供了一种基于多任务时空卷积神经网络的视频驾驶员行为识别方法,将多任务学习策略引入到时空卷积神经网络的训练过程并应用于监控视频中的驾驶员行为识别,辅助的驾驶员定位和光流估计任务隐含地嵌入到视频分类任务中,促进卷积神经网络模型学习到更丰富的驾驶员局部空间和运动时间特征,以提升驾驶员行为识别的准确率。对比目前现有的驾驶员识别方法,本发明专利技术所设计的多任务时空卷积神经网络架构结合了帧间信息,泛化性强,识别准确率高,可用于监控视频下的实时驾驶员行为识别,在交通安全领域有重要的应用价值。

Video Driver Behavior Recognition Based on Multitask Spatiotemporal Convolution Neural Network

The invention provides a video driver behavior recognition method based on Multi-task spatio-temporal convolution neural network. The multi-task learning strategy is introduced into the training process of spatio-temporal convolution neural network and applied to driver behavior recognition in surveillance video. Auxiliary driver location and optical flow estimation tasks are implicitly embedded in video classification tasks to promote convolution neural network modelling. In order to improve the accuracy of driver behavior recognition, more abundant features of driver's local space and movement time are acquired. Compared with the existing driver recognition methods, the multi-task spatio-temporal convolution neural network architecture designed by the invention combines inter-frame information, has strong generalization and high recognition accuracy, and can be used for real-time driver behavior recognition under surveillance video, and has important application value in the field of traffic safety.

【技术实现步骤摘要】
基于多任务时空卷积神经网络的视频驾驶员行为识别方法
本专利技术属于图像处理和模式识别领域,涉及一种基于多任务时空卷积神经网络的视频驾驶员行为识别方法。
技术介绍
根据世界卫生组织的官方报道,全球每年有125万人死于交通事故。作为最频繁发生的事故之一,严重交通事故的发生通常归因于驾驶员的违法驾驶,汽车失灵,恶劣的天气状况等,在这其中,80%以上的交通事故与驾驶员违规驾驶有关。一些不良的驾驶行为如双手脱离方向盘,打电话,低头看手机,抽烟等分散了驾驶员的注意力并存在一定程度上的安全隐患。因此驾驶员行为监控技术对于道路安全和智能交通有重要的研究意义。驾驶员行为监控目前已成为高级驾驶辅助系统(AdvancedDriverAssistanceSystem,ADAS)的关键技术之一。内置的车载摄像头可以实时的捕捉驾驶员的驾驶状态,然而目前基于计算机视觉的自动驾驶员行为识别准确率不高,其主要存在以下难点:(1)不同的驾驶行为在监控视频上拥有非常相似的全局背景信息,即不同驾驶行为在全局静态特征上的类间方差较小,而不同驾驶员由于驾驶习惯不同,相同驾驶行为在局部动态特征上的类内方差较大。所以很难人为设计出适用于所有场景的通用特征。(2)传统的卷积神经网络方法虽然可以应用于静态图像识别,但不能很好的利用视频之间的动态信息。双流卷积神经网络可以通过密集光流图提取帧与帧之间的动态信息用于分类,但是由于光流图需要预先计算,并不能实现驾驶员行为的实时识别。
技术实现思路
为解决上述问题,本专利技术提供了一种基于多任务时空卷积神经网络的视频驾驶员行为识别方法,使用多任务学习方法可以隐含地学习视频中的动态信息和驾驶员的局部位置信息,并能够实现实时驾驶员行为识别。为了达到上述目的,本专利技术提供如下技术方案:基于多任务时空卷积神经网络的视频驾驶员行为识别方法,包括如下步骤:步骤1:拍摄驾驶员行为的相关视频并录入行为数据集中;步骤2:将训练视频截取剪辑并尺寸归一化,连续L帧的剪辑作为一个输入样本,并添加三个标签分别为驾驶员行为类别标签,光流标签和驾驶员定位标签;步骤3:构建用于驾驶员行为识别的时空卷积神经网络架构,架构包含13层卷积层、2层全连接层,4层反卷积层,1层softmax分类层和1层边框回归层;步骤4:采用多任务学习策率训练时空卷积神经网络;将训练视频剪辑送入设计好的模型中进行训练,卷积层和全连接层用于视频序列的特征提取,softmax分类层用于分类不同的驾驶员行为,边框回归层预测驾驶员定位,反卷积模块进行多尺度的密集光流估计;步骤5:在网络测试阶段,只保留训练网络的卷积层、全连接层和softmax分类层及其对应参数;对于驾驶员行为识别的测试集,使用相同的方法截取帧长为L的剪辑,堆叠并规范化后送入测试网络,通过网络的前向传播计算得出视频驾驶员行为识别结果。进一步的,所述步骤1中驾驶行为包括以下几种类型:C0:正常驾驶C1:双手脱离方向盘C2:打电话C3:低头看手机C4:抽烟C5:与副驾驶交谈。进一步的,所述步骤2具体包括如下子步骤:步骤201:对于步骤1中得到的一个帧长为N的训练视频,随机抽取相邻L帧,将抽取的剪辑进行通道合并和尺寸归一化,形成224×224×3L的输入作为训练样本I,其类别标签为l(l∈{0,1,2,3,4,5});步骤202:使用opencv开源库计算相邻L帧输入的Brox密集光流场,计算得到的第t和t+1帧之间的光流场可分解x方向分量和y方向分量将生成得到的相邻帧光流图堆叠成224×224×2(L-1)作为标签O,具体表示为:步骤203:使用MTCNN开源工具检测驾驶员人脸,Faster-RCNN检测方向盘,作为8维位置标签p={pface,pwheel}。进一步的,所述步骤3中用于驾驶员行为识别的时空卷积神经网络架构以尺寸为224×224×3L的剪辑作为输入。进一步的,所述四个尺度分别为:7×7,14×14,28×28,56×56。进一步的,所述步骤3具体包括如下子步骤:步骤301:通过一系列的卷积操作,输入可映射为多层卷积特征图F,具体表示为:F=Conv(I|θconv)(2)其中Conv(·|)表示卷积操作,θconv表示卷积层的相关参数,F表示一系列卷积操作后输出的多层卷进特征图;步骤302:两层全连接层跟随在卷积层的输出后,第一个全连接层的单元与卷积层输出的特征图F全连接,第二个全连接层将特征图映射为4096维特征向量f,具体表示为:f=FC(F|θfc)=θfcTF(3)其中FC(·|)表示全连接操作,θfc表示全连接层的相关参数,f表示4096维特征向量,即全连接参数θfc和特征图F的内积;步骤303:得到的4096维特征向量作为softmax分类层的输入;Softmax层的输出为6维向量即为输入视频剪辑属于不同驾驶员行为类别的后验概率,其属于第j类的后验概率表示为:其中θcls表示softmax分类层的参数,其第j个神经元的输出即输入剪辑属于第j类别的后验概率;步骤304:得到的4096维特征向量作为边框回归层的输入;边框回归层的输出为8维向量,分别表示驾驶员人脸和方向盘的定位预测值具体表示为:其中θloc表示euclidean层的回归连接参数,该层的8维输出即定位的预测值步骤305:多层卷积特征图F作为反卷积模块的输入,其输出为多尺度密集光流预测图其中反卷积模块由一系列的卷积和反卷积层操作组成;卷积操作用于对特征图滤波,将其映射为(2L-1)通道的输出用于当前尺度下的密集光流图逐像素估计;反卷积操作用于将当前尺度下的光流预测结果和特征图分辨率翻倍,用于更高尺度的光流估计;经过四次卷积和反卷积操作,生成的多尺度光流预测结果表示为:其中Deconv(·|)表示反卷积操作,θdec表示反卷积层相关参数,其输出的多尺度光流预测结果包含四个尺度。进一步的,所述步骤4具体包括如下子步骤:步骤401:softmax分类层的输出为预测出的不同驾驶行为的概率,其属于第j类的后验概率记为P(j),而softmax分类层的损失函数定义为:其中f为全连接层提取的4096维特征,l为输入剪辑对应的类别标签,1{·}表示指示函数,如大括号内的表达式为真则取值1,反之取值0;而softmax层损失即为驾驶员行为分类的交叉熵;步骤402:回归层的输出为定位的预测值,包含人脸位置预测值和方向盘位置预测值计算定位框和真实框之间的重叠面积作为回归层损失,其具体表示为:其中p和分别表示驾驶员定位真实值和预测值,Iface和Iwheel表示真实框和预测框的重合面积,Uface和Uwheel表示真实框和预测框的联合面积,回归框损失Lloc用于精确的人脸和方向盘定位;步骤403:反卷积模块的输出为多尺度光流预测值该模块的损失定义为4个尺度下光流真实值和预测值之间二范数距离的加权求和,具体表示为:其中表示光流预测值,O表示光流真实帧,αr表示权重超参数,Lflow表示反卷积模块损失;步骤404:下载UCF101行为识别数据集,截取该视频中的相邻L帧对设计的网络进行预训练,预训练只用于学习卷积层,全连接层和softmax回归层,用于主行为分类任务,而忽略光流预测和定位任务;步骤405:使用驾驶员行为数据集中的训练集对时空神经网络进行微调,使本文档来自技高网...

【技术保护点】
1.基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,包括如下步骤:步骤1:拍摄驾驶员行为的相关视频并录入行为数据集中;步骤2:将训练视频截取剪辑并尺寸归一化,连续L帧的剪辑作为一个输入样本,并添加三个标签分别为驾驶员行为类别标签,光流标签和驾驶员定位标签;步骤3:构建用于驾驶员行为识别的时空卷积神经网络架构,架构包含13层卷积层、2层全连接层,4层反卷积层,1层softmax分类层和1层边框回归层;步骤4:采用多任务学习策率训练时空卷积神经网络;将训练视频剪辑送入设计好的模型中进行训练,卷积层和全连接层用于视频序列的特征提取,softmax分类层用于分类不同的驾驶员行为,边框回归层预测驾驶员定位,反卷积模块进行多尺度的密集光流估计;步骤5:在网络测试阶段,只保留训练网络的卷积层、全连接层和softmax分类层及其对应参数;对于驾驶员行为识别的测试集,使用相同的方法截取帧长为L的剪辑,堆叠并规范化后送入测试网络,通过网络的前向传播计算得出视频驾驶员行为识别结果。

【技术特征摘要】
1.基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,包括如下步骤:步骤1:拍摄驾驶员行为的相关视频并录入行为数据集中;步骤2:将训练视频截取剪辑并尺寸归一化,连续L帧的剪辑作为一个输入样本,并添加三个标签分别为驾驶员行为类别标签,光流标签和驾驶员定位标签;步骤3:构建用于驾驶员行为识别的时空卷积神经网络架构,架构包含13层卷积层、2层全连接层,4层反卷积层,1层softmax分类层和1层边框回归层;步骤4:采用多任务学习策率训练时空卷积神经网络;将训练视频剪辑送入设计好的模型中进行训练,卷积层和全连接层用于视频序列的特征提取,softmax分类层用于分类不同的驾驶员行为,边框回归层预测驾驶员定位,反卷积模块进行多尺度的密集光流估计;步骤5:在网络测试阶段,只保留训练网络的卷积层、全连接层和softmax分类层及其对应参数;对于驾驶员行为识别的测试集,使用相同的方法截取帧长为L的剪辑,堆叠并规范化后送入测试网络,通过网络的前向传播计算得出视频驾驶员行为识别结果。2.根据权利要求1所述的基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,所述步骤1中驾驶行为包括以下几种类型:C0:正常驾驶C1:双手脱离方向盘C2:打电话C3:低头看手机C4:抽烟C5:与副驾驶交谈。3.根据权利要求1所述的基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,所述步骤2具体包括如下子步骤:步骤201:对于步骤1中得到的一个帧长为N的训练视频,随机抽取相邻L帧,将抽取的剪辑进行通道合并和尺寸归一化,形成224×224×3L的输入作为训练样本I,其类别标签为l(l∈{0,1,2,3,4,5});步骤202:使用opencv开源库计算相邻L帧输入的Brox密集光流场,计算得到的第t和t+1帧之间的光流场可分解x方向分量和y方向分量将生成得到的相邻帧光流图堆叠成224×224×2(L-1)作为标签O,具体表示为:步骤203:使用MTCNN开源工具检测驾驶员人脸,Faster-RCNN检测方向盘,作为8维位置标签p={pface,pwheel}。4.根据权利要求1所述的基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,所述步骤3中用于驾驶员行为识别的时空卷积神经网络架构以尺寸为224×224×3L的剪辑作为输入。5.根据权利要求4所述的基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,所述四个尺度分别为:7×7,14×14,28×28,56×56。6.根据权利要求5所述的基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,所述步骤3具体包括如下子步骤:步骤301:通过一系列的卷积操作,输入可映射为多层卷积特征图F,具体表示为:F=Conv(I|θconv)(2)其中Conv(·|)表示卷积操作,θconv表示卷积层的相关参数,F表示一系列卷积操作后输出的多层卷进特征图;步骤302:两层全连接层跟随在卷积层的输出后,第一个全连接层的单元与卷积层输出的特征图F全连接,第二个全连接层将特征图映射为4096维特征向量f,具体表示为:f=FC(...

【专利技术属性】
技术研发人员:路小波胡耀聪陆明琦
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1