一种基于多层特征融合的卷积神经网络打哈欠行为识别方法及装置制造方法及图纸

技术编号:22295878 阅读:59 留言:0更新日期:2019-10-15 04:58
本发明专利技术公开了一种基于多层特征融合的卷积神经网络打哈欠行为识别方法,包含如下步骤:步骤1,采集驾驶员在驾驶状态下的面部视频帧图像作为样本;步骤2,采用人脸检测算法对所述面部视频帧图像进行人脸区域定位,提取出人脸图像,步骤3,对样本进行分类,步骤4,训练基于ShuffleNetV2网络修改的多层特征融合的卷积神经网络,直到在测试集上精度达到最优;步骤5,打哈欠张嘴识别检测。本发明专利技术通过基于ShuffleNeV2网络结构设计的多层特征融合的卷积神经网络来端到端的打哈欠张嘴识别,解决了打哈欠识别算法逻辑复杂且精度不高的问题。

A Method and Device for Recognition of Yawning Behavior Based on Convolutional Neural Network with Multi-layer Feature Fusion

【技术实现步骤摘要】
一种基于多层特征融合的卷积神经网络打哈欠行为识别方法及装置
本专利技术涉及智能交通研究领域,尤其是涉及图像识别和疲劳驾驶领域,具体涉及一种基于多层特征融合的卷积神经网络打哈欠行为识别方法及装置。
技术介绍
随着人民生活水平的提高和汽车行业的发展,乘车出行或者驾车出行已经成为一种优先选择的交通方式。车辆出行频次的增加,也一定程度上增加了交通事故发生的概率。据不完全统计,大部分交通事故的发生是由于驾驶员疲劳,注意力不集中导致的。因此有效的检测疲劳驾驶行为及时预防,有利于减少交通事故的发生。疲劳驾驶检测技术可以大致分为基于驾驶人行为的分析和基于视觉的分析。近年来随着人工智能技术的进步,基于视觉的疲劳驾驶检测技术受到越来越多的关注。打哈欠作为疲劳的一个关键性特征,打哈欠识别的准确度高低会给疲劳检测带来极大的影响。现有的大多方法均是先定位到嘴部区域,然后通过分析嘴部区域的特征来进行打哈欠识别。该种方法存在两个主要的问题:第一,从算法效率上来说,要先定位脸部区域,然后再定位嘴部区域算法复杂度高。第二,打哈欠是一个面部表情,单纯的依赖于嘴部区域特征容易和说话、惊恐等表情混淆,影响算法的准确度。马素刚,赵琛,孙韩林等人的“一种基于卷积神经网络的哈欠检测算法”《计算机科学》中提出把驾驶员面部图片直接送入到一个卷积神经网络中进行打哈欠识别,但是只是提取了卷积神经网络的高层特征进行识别,丢失了低层的边缘特征和中层的具体特征,打哈欠识别的精度受到了影响。本专利技术结合了卷积神经网络的多层特征进行打哈欠张嘴行为识别,同时结合一个序列的分析结果,综合判断是否打哈欠,最终提高了打哈欠识别的精度。因此,现有的方法中打哈欠识别算法实现逻辑复杂,需要先定位脸部区域再定位嘴部区域然后进行识别,且该解决方案的精度不高,有些方法对于卷积神经网络的特征挖掘的不够,影响打哈欠识别的精度。
技术实现思路
为了克服现有技术的不足,本专利技术的目的在于提供一种基于多层特征融合的卷积神经网络打哈欠行为识别方法及装置,该方法解决了打哈欠识别算法逻辑复杂且精度不高的问题。为达到上述目的,本专利技术是通过以下的技术方案来实现的。步骤1,采集驾驶员在驾驶状态下的面部视频帧图像作为样本。步骤2,采用人脸检测算法对采集到的视频帧图像进行人脸区域定位,根据人脸检测算法给出的人脸坐标(X,Y,W,H),提取出人脸图像,其中(X,Y)表示人脸图像左上角的点,W,H分别对应人脸图像的宽和高;优选的,人脸检测算法采用高效快速的人脸检测算法MTCNN。步骤3,挑选出非打哈欠状态下驾驶员的人脸图像,非打哈欠状态包括:面无表情、讲话、微笑等,将这类图片归到同一个文件夹作为类别0,挑选出打哈欠状态下驾驶员的面部图像,作为类别1。步骤4,训练基于ShuffleNetV2网络修改的多层特征融合的打哈欠张嘴识别的卷积神经网络,直到在测试集上精度达到最优。所述基于ShuffleNetV2网络修改的多层特征融合的打哈欠张嘴识别的卷积神经网络的结构具体如下:选用ShuffleNetV2网络作为打哈欠识别的基准网络架构,针对现有技术中存在的只关注高阶特征,而忽略浅层的细节特征,训练Loss设计单一,影响精度问题,同时为了适应嵌入式端运行的速度要求对ShuffleNetV2网络修改如下:(1)ShuffleNetV2的整个网络结构可以分成4个阶段:stage1、stage2、stage3、stage4,初始的网络架构只是利用stage4模块的高阶特征进行识别,对于打哈欠识别任务需要考虑到一些低层的边缘特征,本专利技术在stage_2_1/concat层,stage_3_1/concat层,stage_4_1/concat层后面各增加一个全局的均值AvePooling层,用来提取对应层的特征,最后把三个增加的均值AvePooling层提取的特征和原网络结构中的最后一个AvePooling层的特征拼接在一起得到一个新的特征,用来做打哈欠张嘴识别网络的训练。stage_2_1/concat层表示ShuffleNetV2网络第二阶段的第一个concat层,stage_3_1/concat层表示ShuffleNetV2网络第三阶段的第一个concat层,stage_4_1/concat层表示ShuffleNetV2网络第四阶段的第一个concat层。基于融合的特征具有更好的表征打哈欠状态的能力。(2)修改网络的单一Loss训练方式Softmax分类器为SVM分类器和Center_Loss相结合的多Loss训练方式;Softmax作为一种基于极大似然估计定义的Loss只是为了追求全局最优,在二分类问题上没有基于支持向量机的svm分类器效果优异;Center_Loss能够让同类别的特征更加的聚集;多Loss训练的方式增强了网络训练时候的监督信号,提升了模型的泛化能力。优选的,网络修改还包括(3)修改网络输入的大小为112*112,原先网络输入为224*224。通过将网络输入的宽和高各缩小一半,可以减少4倍的运算量,极大的提高了运行的速度。步骤5,将驾驶员在驾驶状态下的实时面部视频帧图像经过步骤2处理后获取人脸区域,每隔1-4s输入训练好的卷积神经网络,输出单张图像是否张嘴识别结果,优选的,若张嘴即可能存在打哈欠行为,则进入步骤6。步骤6,打哈欠行为分析:对被检测到张嘴时,对其前后2~3s内的视频帧图像进行检测,从而得出张嘴的连续时间长度,通过连续时间长度设定阈值,进而得到是否存在打哈欠行为。与现有技术相比,本专利技术具有如下有益效果:本专利技术给出了一种实现逻辑简单,精度高且运行速度快的打哈欠检测算法。通过给出一个基于ShuffleNeV2网络结构设计的多层特征融合的卷积神经网络来端到端的打哈欠张嘴的识别;同时,结合多个视频帧序列综合给出是否存在打哈欠行为的判断;解决了打哈欠识别算法逻辑复杂且精度不高的问题。本专利技术通过提高打哈欠检测的精度,可以准确的捕获驾驶员的打哈欠行为。可以提高疲劳驾驶预警的准确度,降低误报和漏报带来的影响。另外本专利技术降低了打哈欠识别的算法复杂度,能够降低算法对于硬件性能的要求,同时提高了疲劳驾驶预警的实时性。附图说明图1为训练数据集采集阶段的示意图。图2为经过修改的ShuffleNeV2网络结构图。图3为本专利技术实施例的基于多层特征融合的卷积神经网络打哈欠行为识别装置示意图。具体实施方式为了阐明本专利技术的技术方案和工作原理,下面结合附图与具体实施例对本专利技术做详细的介绍。实施例一:附图1为训练数据集采集阶段的示意图,结合该图,该方法主要包括以下步骤:步骤1,采集驾驶员在驾驶状态下的面部视频帧图像作为样本,图像大小为640*480*3,图像通道为RGB格式,如图2中的视频帧I。步骤2,基于高效快速的人脸检测算法MTCNN,对采集到的视频帧图像进行人脸区域定位,根据人脸检测算法给出的人脸坐标(X,Y,W,H),提取出人脸图像,其中X,Y表示左上角的点,W,H分别对应人脸区域的宽和高,基于图像处理算法把人脸图片的大小变换成112*112*3的大小,如图2中的人脸图片。步骤3,人工挑选出非打哈欠状态下驾驶员的面部图像,非打哈欠状态包括:面无表情、讲话、微笑等,将这类图片归到同一个文件夹作为类别0,挑选出打哈欠状态下驾驶员的本文档来自技高网
...

【技术保护点】
1.一种基于多层特征融合的卷积神经网络打哈欠行为识别方法,其特征在于,包含如下步骤:步骤1,采集驾驶员在驾驶状态下的面部视频帧图像作为样本;步骤2,采用人脸检测算法对所述面部视频帧图像进行人脸区域定位,根据人脸检测算法给出的人脸坐标(X,Y,W,H),提取出人脸图像,其中(X,Y)表示人脸图像左上角的点,W,H分别对应人脸图像的宽和高;步骤3,挑选出非打哈欠状态下驾驶员的人脸图像,归集为类别0,挑选出打哈欠状态下驾驶员的面部图像,归集为类别1,所述非打哈欠状态包括面无表情、讲话、微笑等;步骤4,训练基于ShuffleNetV2网络修改的多层特征融合的卷积神经网络,直到在测试集上精度达到最优;步骤5,将驾驶员在驾驶状态下的实时面部视频帧图像经过步骤2处理后获取人脸区域,每隔1‑4s输入训练好的卷积神经网络,输出单张图像是否张嘴识别结果。

【技术特征摘要】
1.一种基于多层特征融合的卷积神经网络打哈欠行为识别方法,其特征在于,包含如下步骤:步骤1,采集驾驶员在驾驶状态下的面部视频帧图像作为样本;步骤2,采用人脸检测算法对所述面部视频帧图像进行人脸区域定位,根据人脸检测算法给出的人脸坐标(X,Y,W,H),提取出人脸图像,其中(X,Y)表示人脸图像左上角的点,W,H分别对应人脸图像的宽和高;步骤3,挑选出非打哈欠状态下驾驶员的人脸图像,归集为类别0,挑选出打哈欠状态下驾驶员的面部图像,归集为类别1,所述非打哈欠状态包括面无表情、讲话、微笑等;步骤4,训练基于ShuffleNetV2网络修改的多层特征融合的卷积神经网络,直到在测试集上精度达到最优;步骤5,将驾驶员在驾驶状态下的实时面部视频帧图像经过步骤2处理后获取人脸区域,每隔1-4s输入训练好的卷积神经网络,输出单张图像是否张嘴识别结果。2.根据权利要求1所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法,其特征在于,还包括步骤6,打哈欠行为分析:对步骤5检测到张嘴时,对其前后2~3s内的视频帧图像进行检测,从而得出张嘴的连续时间长度,通过连续时间长度设定阈值,进而得到是否存在打哈欠行为。3.根据权利要求1所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法,其特征在于,步骤2中所述人脸检测算法采用高效快速的人脸检测算法MTCNN。4.根据权利要求1-3任一项所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法,其特征在于,步骤4中所述基于ShuffleNetV2网络修改的多层特征融合的卷积神经网络,具体修改如下:(1)ShuffleNetV2的整个网络结构可以分成4个阶段:stage1、stage2、stage3、stage4,在stage_2_1/concat...

【专利技术属性】
技术研发人员:姜磊周金明李军
申请(专利权)人:南京行者易智能交通科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1