当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于多区域特征学习模型的驾驶员行为识别方法技术

技术编号:21892952 阅读:19 留言:0更新日期:2019-08-17 14:55
本发明专利技术设计了一种基于多区域特征学习模型的驾驶员行为识别方法,涉及计算机视觉中的行为识别领域。本发明专利技术结合图片多个有判别力的区域,比如手、方向盘、头等局部区域,与整体图片相结合作为驾驶员行为识别的依据。本发明专利技术在RCNN模型的基础上,使用Bing算法用于区域生成,测出图片中多个具有判别力的局部区域,随后将局部区域与整体图片分别送入卷积神经网络模型中提取相关特征,最后将特征融合进行行为分类。本发明专利技术所设计的网络可以高效快速地提取驾驶员行为的多区域特征,进一步提高驾驶员行为识别准确率。发明专利技术在交通安全领域有重要的应用价值。

A Driver Behavior Recognition Method Based on Multi-Area Feature Learning Model

【技术实现步骤摘要】
一种基于多区域特征学习模型的驾驶员行为识别方法
本专利技术涉及图像处理和模式识别领域,特别是涉及一种基于多区域特征学习模型的驾驶员行为识别方法。
技术介绍
近些年来,计算机科学在图像识别,物体检测等方面有了较大的发展,特别是随着一些专家学者对深度学习的研究,采用深度神经网络对图像进行特征学习和识别的准确率不断提高,在很多领域都达到了令人满意的效果。因此通过深度学习的相关算法对驾驶员图像信息进行分析处理与识别,当驾驶员出现违规、不安全行为时给予及时的预警,在一定程度上遏制交通事故的发生。该方法的优点十分明显,首先解决了交通管理人员难以对驾驶员行为进行实时监管的问题,大大降低了人力的投入;其次,通过此方法,可以在交通事故发生时向有关部门提交相关证据,解决了事故处理中定责困难的问题。因此基于深度学习的驾驶员行为识别研究是一项很有实际应用价值的研究。
技术实现思路
为了解决以上问题,本专利技术提供一种基于多区域特征学习模型的驾驶员行为识别方法,专利技术中使用的多区域特征学习方法可以提取图像中驾驶员行为的空间信息,并在测试阶段实现了实时驾驶员行为识别,为达此目的,本专利技术提供一种基于多区域特征学习模型的驾驶员行为识别方法,包含以下步骤:步骤1:建立驾驶员行为识别的图像数据集;步骤2:构建神经网络模型;步骤3:训练多区域特征学习网络模型;步骤4:对多区域特征学习网络模型进行测试。作为本专利技术进一步改进,所述步骤1具体步骤如下;样本数据来源与两部分,一部分来自Kaggle平台提供的驾驶员行为数据集,图片大小为640*480,共计25000张,另一部分为自建驾驶员行为数据库,由内置车载摄像头在不同角度和不同光线条件下录制,拍摄图片大小为1320*946,为了统一数据,将其裁剪成640*480,共计约5000张,并且10种行为的样本数量基本一致,分别为:正常驾驶、左手打电话、右手打电话、左手接发信息、右手接发信息、左手抽烟、右手抽烟、喝水、与副驾驶乘客进行交谈和双手脱离方向盘;将拍摄得到的图片数据集划分为训练集和测试集各包含29000张训练图片和1000张测试图片,原始图片均降采样为224*224,用0到9代表样本对应的行为标签,为了准确性,测试样本涵盖10种驾驶员行为,每种驾驶员行为100张,且测试样本图片中驾驶员与训练样本中的驾驶员独立。作为本专利技术进一步改进,所述步骤2具体步骤如下;所设计的模型分别为:区域推荐、卷积神经网络和分类器,其中区域推荐模块即利用Bing算法生成候选区域,卷积神经网络模块选用VGG-16提取候选区域的特征,分类器模块中利用特征向量训练支持向量机进行驾驶员行为分类,具体描述如下:步骤201:为了搜寻图像中的物体,首先利用预定义的窗口大小进行扫描,窗口的大小共计25种,由{Wo,Ho},Wo,Ho∈{10,20,40,80,160)表示,对每一个窗口运用模型SVM训练所得的模型ω∈R64进行评分;Sl=<ω,gl>(1)l=<i,x,y>(2)其中Sl代表得分,gl代表梯度幅值特征,l代表坐标,i代表窗口的尺度,(x,y)代表窗口的位置,针对每个尺度的窗口采用非极大抑制算法,最终提供一些候选窗口,另外某些尺度的窗口包含目标的可能性较小,如10*160,因此在运用模型ω评分之后进行一定的校准;Ol=vi·sl+ti(3)其中vi,ti∈R,尺寸不同的窗口,所学习的vi,ti不同,为了得到模型ω以及vi,ti,Bing算法采用了两级SVM进行训练;步骤202:第一级模型训练,标注训练样本的头部以及方向盘区域作为正样本,标注背景区域为负样本,将所得的正负样本的尺寸调整为8*8,随后对8*8的样本图像每一个像素点进行梯度计算,作为梯度幅值特征,并利用该特征与标签进行SVM训练,得到参数模型ω,因此可以通过式4可以得出样本图像的分数,其中x是梯度幅值特征,x与ω均是64维,为了进行加速,将x与ω进行二值化,首先模型ω可以由多个基向量的组合表示;其中Nω代表基向量个数,aj∈{-1,1}64表示基向量,βj为系数,并且aj可以进一步由二值向量与其共轭表示;对于梯度幅值特征,近似采用其前Ng位来进行二值化,因此64维的梯度幅值特征gl可以由前Ng位二值化近似表示;那么一个图像窗口的二值化梯度幅值特征的得分可以表示为:而上式运算可以通过快速的位操作得到,显著地降低了计算时间;步骤203:第二级训练,首先利用第一级训练得到的模型ω对窗口进行打分,并利用非极大抑制算法消除高分区域附近的区域,然后遍历这些候选区域,若区域与目标物体位置的重叠率超过0.5则认定标签为1,否则为-1。最后以每个区域的得分作为训练样本,结合标签,在不同尺度下进行SVM训练,得到式3中的vi,ti;步骤204:采用卷积神经网络VGG-16对候选区域进行特征提取,先在大型数据集ILSVRC上预训练,随后利用生成的候选区域对卷积神经网络进行微调,规定候选区域与物体真实位置重叠率超过0.5为正样本,否则为负样本;步骤205:当图像经过Bing算法的处理之后,会得到大约1000个候选区域,其中会包含头部以及方向盘区域,由于区域候选算法可能会在头部或方向盘生成多个区域,将候选区域输入卷积神经网络后,通过softmax得到一个不同类别的相对概率,代表该区域属于头部区域以及方向盘区域的概率,分别取两个类别的最大概率区域作为最终的头部与方向盘区域,假定输入图像为I,头部区域为rhead,方向盘区域为rcircle,将三个区域的尺寸统一调整为224*224,将调整后的I、rhead以及rcircle输入卷积神经网络进行特征提取,最终分别得到特征向量Φ(r:I)、Φ(r:rhead)与Φ(r:rcircle),然后将三种特征向量进行级联作为最终驾驶员行为的特征向量Φ(r:s),得到特征向量后,运用卷积神经网络的softmax层输出各行为的概率,如式8所示;其中α表示动作的某一类别,Φ(r:s,α)为特征向量Φ(r:s)中对应的α类别的输出值,C为动作类别的个数,本课题中为10,存在少数情况,候选区域算法没有准确的给出头部或方向盘区域,因此设定当头部或方向盘区域的最大概率小于0.5时,相应的特征向量设置为零向量,即Φ(r:rhead)=0,Φ(r:rcircle)=0。作为本专利技术进一步改进,所述步骤3具体步骤如下;使用Caffe开源工具搭建网络模型,整个网络模型的训练过程在对应服务器上运行,使用对应操作系统,使用随机梯度下降方法优化网络参数,训练主要分为候选区域以及驾驶员行为的判别,两部分均采用softmax层,模型的两部分进行同步训练,训练的目的是降低softmax层的损失,若P(α|I,r)是softmax给出的驾驶员行为属于α的概率,那么对于一个batch的训练样本,损失函数为:其中li为图像Ii的正确行为标签,M为batch的数量,同理,头部以及方向盘区域的softmax层的损失函数为:其中ti为区域ri的正确类别标签,另外为了扩充正样本的数量,候选区域中与真实标签位置的重叠率超过0.8的区域认为是正样本;由于VGG模型收敛较慢,训练困难,在训练VGG模型时,首先利用在ImageNet-1K训练集上训练完毕的VGG-19模型进行参数初始本文档来自技高网...

【技术保护点】
1.一种基于多区域特征学习模型的驾驶员行为识别方法,其特征在于:包含以下步骤:步骤1:建立驾驶员行为识别的图像数据集;步骤2:构建神经网络模型;步骤3:训练多区域特征学习网络模型;步骤4:对多区域特征学习网络模型进行测试。

【技术特征摘要】
1.一种基于多区域特征学习模型的驾驶员行为识别方法,其特征在于:包含以下步骤:步骤1:建立驾驶员行为识别的图像数据集;步骤2:构建神经网络模型;步骤3:训练多区域特征学习网络模型;步骤4:对多区域特征学习网络模型进行测试。2.根据权利要求1所述的一种基于多区域特征学习模型的驾驶员行为识别方法,其特征在于:所述步骤1具体步骤如下;样本数据来源与两部分,一部分来自Kaggle平台提供的驾驶员行为数据集,图片大小为640*480,共计25000张,另一部分为自建驾驶员行为数据库,由内置车载摄像头在不同角度和不同光线条件下录制,拍摄图片大小为1320*946,为了统一数据,将其裁剪成640*480,共计约5000张,并且10种行为的样本数量基本一致,分别为:正常驾驶、左手打电话、右手打电话、左手接发信息、右手接发信息、左手抽烟、右手抽烟、喝水、与副驾驶乘客进行交谈和双手脱离方向盘;将拍摄得到的图片数据集划分为训练集和测试集各包含29000张训练图片和1000张测试图片,原始图片均降采样为224*224,用0到9代表样本对应的行为标签,为了准确性,测试样本涵盖10种驾驶员行为,每种行为100张,且测试样本图片中驾驶员与训练样本中的驾驶员独立。3.根据权利要求1所述的一种基于多区域特征学习模型的驾驶员行为识别方法,其特征在于:所述步骤2具体步骤如下;所设计的模型分别为:区域推荐、卷积神经网络和分类器,其中区域推荐模块即利用Bing算法生成候选区域,卷积神经网络模块选用VGG-16提取候选区域的特征,分类器模块中利用特征向量训练支持向量机进行驾驶员行为分类,具体描述如下:步骤201:为了搜寻图像中的物体,首先利用预定义的窗口大小进行扫描,窗口的大小共计25种,由{WO,HO},WO,HO∈{10,20,40,80,160}表示,对每一个窗口运用模型SVM训练所得的模型ω∈R64进行评分;Sl=<ω,gl>(1)l=<i,x,y>(2)其中Sl代表得分,gl代表梯度幅值特征,l代表坐标,i代表窗口的尺度,(x,y)代表窗口的位置,针对每个尺度的窗口采用非极大抑制算法,最终提供一些候选窗口,另外某些尺度的窗口包含目标的可能性较小,如10*160,因此在运用模型ω评分之后进行一定的校准;Ol=vi·sl+ti(3)其中vi,ti∈R,尺寸不同的窗口,所学习的vi,ti不同,为了得到模型ω以及vi,ti,Bing算法采用了两级SVM进行训练;步骤202:第一级模型训练,标注训练样本的头部以及方向盘区域作为正样本,标注背景区域为负样本,将所得的正负样本的尺寸调整为8*8,随后对8*8的样本图像每一个像素点进行梯度计算,作为梯度幅值特征,并利用该特征与标签进行SVM训练,得到参数模型ω,因此可以通过式4可以得出样本图像的分数,其中x是梯度幅值特征,x与ω均是64维,为了进行加速,将x与ω进行二值化,首先模型ω可以由多个基向量的组合表示;其中Nω代表基向量个数,aj∈{-1,1}64表示基向量,βj为系数,并且aj可以进一步由二值向量与其共轭表示;对于梯度幅值特征,近似采用其前Ng位来进行二值化,因此64维的梯度幅值特征gl可以由前Ng位二值化近似表示;那么一个图像窗口的二值化梯度幅值特征的得分可以表示为:而上式运算可以通过快速的位操作...

【专利技术属性】
技术研发人员:路小波陆明琦张德明
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1