The invention provides a video driver behavior recognition method based on Multi-task spatio-temporal convolution neural network. The multi-task learning strategy is introduced into the training process of spatio-temporal convolution neural network and applied to driver behavior recognition in surveillance video. Auxiliary driver location and optical flow estimation tasks are implicitly embedded in video classification tasks to promote convolution neural network modelling. In order to improve the accuracy of driver behavior recognition, more abundant features of driver's local space and movement time are acquired. Compared with the existing driver recognition methods, the multi-task spatio-temporal convolution neural network architecture designed by the invention combines inter-frame information, has strong generalization and high recognition accuracy, and can be used for real-time driver behavior recognition under surveillance video, and has important application value in the field of traffic safety.
【技术实现步骤摘要】
基于多任务时空卷积神经网络的视频驾驶员行为识别方法
本专利技术属于图像处理和模式识别领域,涉及一种基于多任务时空卷积神经网络的视频驾驶员行为识别方法。
技术介绍
根据世界卫生组织的官方报道,全球每年有125万人死于交通事故。作为最频繁发生的事故之一,严重交通事故的发生通常归因于驾驶员的违法驾驶,汽车失灵,恶劣的天气状况等,在这其中,80%以上的交通事故与驾驶员违规驾驶有关。一些不良的驾驶行为如双手脱离方向盘,打电话,低头看手机,抽烟等分散了驾驶员的注意力并存在一定程度上的安全隐患。因此驾驶员行为监控技术对于道路安全和智能交通有重要的研究意义。驾驶员行为监控目前已成为高级驾驶辅助系统(AdvancedDriverAssistanceSystem,ADAS)的关键技术之一。内置的车载摄像头可以实时的捕捉驾驶员的驾驶状态,然而目前基于计算机视觉的自动驾驶员行为识别准确率不高,其主要存在以下难点:(1)不同的驾驶行为在监控视频上拥有非常相似的全局背景信息,即不同驾驶行为在全局静态特征上的类间方差较小,而不同驾驶员由于驾驶习惯不同,相同驾驶行为在局部动态特征上的类内方差较大。所以很难人为设计出适用于所有场景的通用特征。(2)传统的卷积神经网络方法虽然可以应用于静态图像识别,但不能很好的利用视频之间的动态信息。双流卷积神经网络可以通过密集光流图提取帧与帧之间的动态信息用于分类,但是由于光流图需要预先计算,并不能实现驾驶员行为的实时识别。
技术实现思路
为解决上述问题,本专利技术提供了一种基于多任务时空卷积神经网络的视频驾驶员行为识别方法,使用多任务学习方法可以隐含地学习视 ...
【技术保护点】
1.基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,包括如下步骤:步骤1:拍摄驾驶员行为的相关视频并录入行为数据集中;步骤2:将训练视频截取剪辑并尺寸归一化,连续L帧的剪辑作为一个输入样本,并添加三个标签分别为驾驶员行为类别标签,光流标签和驾驶员定位标签;步骤3:构建用于驾驶员行为识别的时空卷积神经网络架构,架构包含13层卷积层、2层全连接层,4层反卷积层,1层softmax分类层和1层边框回归层;步骤4:采用多任务学习策率训练时空卷积神经网络;将训练视频剪辑送入设计好的模型中进行训练,卷积层和全连接层用于视频序列的特征提取,softmax分类层用于分类不同的驾驶员行为,边框回归层预测驾驶员定位,反卷积模块进行多尺度的密集光流估计;步骤5:在网络测试阶段,只保留训练网络的卷积层、全连接层和softmax分类层及其对应参数;对于驾驶员行为识别的测试集,使用相同的方法截取帧长为L的剪辑,堆叠并规范化后送入测试网络,通过网络的前向传播计算得出视频驾驶员行为识别结果。
【技术特征摘要】
1.基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,包括如下步骤:步骤1:拍摄驾驶员行为的相关视频并录入行为数据集中;步骤2:将训练视频截取剪辑并尺寸归一化,连续L帧的剪辑作为一个输入样本,并添加三个标签分别为驾驶员行为类别标签,光流标签和驾驶员定位标签;步骤3:构建用于驾驶员行为识别的时空卷积神经网络架构,架构包含13层卷积层、2层全连接层,4层反卷积层,1层softmax分类层和1层边框回归层;步骤4:采用多任务学习策率训练时空卷积神经网络;将训练视频剪辑送入设计好的模型中进行训练,卷积层和全连接层用于视频序列的特征提取,softmax分类层用于分类不同的驾驶员行为,边框回归层预测驾驶员定位,反卷积模块进行多尺度的密集光流估计;步骤5:在网络测试阶段,只保留训练网络的卷积层、全连接层和softmax分类层及其对应参数;对于驾驶员行为识别的测试集,使用相同的方法截取帧长为L的剪辑,堆叠并规范化后送入测试网络,通过网络的前向传播计算得出视频驾驶员行为识别结果。2.根据权利要求1所述的基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,所述步骤1中驾驶行为包括以下几种类型:C0:正常驾驶C1:双手脱离方向盘C2:打电话C3:低头看手机C4:抽烟C5:与副驾驶交谈。3.根据权利要求1所述的基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,所述步骤2具体包括如下子步骤:步骤201:对于步骤1中得到的一个帧长为N的训练视频,随机抽取相邻L帧,将抽取的剪辑进行通道合并和尺寸归一化,形成224×224×3L的输入作为训练样本I,其类别标签为l(l∈{0,1,2,3,4,5});步骤202:使用opencv开源库计算相邻L帧输入的Brox密集光流场,计算得到的第t和t+1帧之间的光流场可分解x方向分量和y方向分量将生成得到的相邻帧光流图堆叠成224×224×2(L-1)作为标签O,具体表示为:步骤203:使用MTCNN开源工具检测驾驶员人脸,Faster-RCNN检测方向盘,作为8维位置标签p={pface,pwheel}。4.根据权利要求1所述的基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,所述步骤3中用于驾驶员行为识别的时空卷积神经网络架构以尺寸为224×224×3L的剪辑作为输入。5.根据权利要求4所述的基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,所述四个尺度分别为:7×7,14×14,28×28,56×56。6.根据权利要求5所述的基于多任务时空卷积神经网络的视频驾驶员行为识别方法,其特征在于,所述步骤3具体包括如下子步骤:步骤301:通过一系列的卷积操作,输入可映射为多层卷积特征图F,具体表示为:F=Conv(I|θconv)(2)其中Conv(·|)表示卷积操作,θconv表示卷积层的相关参数,F表示一系列卷积操作后输出的多层卷进特征图;步骤302:两层全连接层跟随在卷积层的输出后,第一个全连接层的单元与卷积层输出的特征图F全连接,第二个全连接层将特征图映射为4096维特征向量f,具体表示为:f=FC(...
【专利技术属性】
技术研发人员:路小波,胡耀聪,陆明琦,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。