当前位置: 首页 > 专利查询>田文洪专利>正文

一种基于卷积神经网络的高精度自动识别驾驶员不安全行为的方法与装置制造方法及图纸

技术编号:21560861 阅读:32 留言:0更新日期:2019-07-10 13:04
本发明专利技术实施例公开了一种基于卷积神经网络的高精度自动识别驾驶员不安全行为的方法与装置,涉及图像识别、模式识别及自动化领域。本发明专利技术针对重要货物运输或者载人客车驾驶员的不安全行为检测问题,提出了DriverBeCog的解决方法:利用胶囊神经网络和卷积神经网络对驾驶员的实时图像提取特征;并行对多种行为分别进行二分类;通过监控设备传回画面进行实时监测,对不安全行为进行警告,同时相关信息记录进数据库。本发明专利技术采用多个模型并发处理;提出一种网络层次少、参数少、计算量小且易于实用的卷积神经网络模型;对于不安全行为的识别率超出已有成果,利于实用;并采用权重参数调整方法解决正反类数据量差距过大的问题。

A High Precision Automatic Recognition Method and Device for Driver's Unsafe Behavior Based on Convolutional Neural Network

【技术实现步骤摘要】
一种基于卷积神经网络的高精度自动识别驾驶员不安全行为的方法与装置
本专利技术涉及模式识别领域与安全驾驶行为监控领域,尤其涉及一种自动识别驾驶员不安全行为的方法和装置。
技术介绍
截至2016年底,我国机动车保有量达2.9亿辆,其中汽车1.94亿辆,机动车驾驶人3.6亿人,而汽车驾驶人超过3.1亿人。海量的汽车导致了大量的交通事故,而这些交通事故中,很多是由不文明不安全的交通行为引起,如一只手抽烟或打电话,单手操控汽车等;同时,由于司机对安全行为的认识不够,还存在大量不系安全带的情况。对于重要货物运输或者载人客车,事故造成的危害是巨大的。因此,社会对于能够自动识别驾驶员违规行为并发出警报的系统有着强烈需求。国内外对于驾驶员违规行为的研究较少且比较集中,很少有能够真正商用的,其相关数据集难以获得,分析的数据大体可分为三个方面:驾驶员的正面图像、方向盘与多媒体区附近的图像、侧面的图像。识别的内容也是打电话、发信息、操作音响、看向后方等行为的一种或几种。传统的检测方式是通过一些高成本的传感器识别驾驶员行为,虽然效果尚可,但成本高昂,不宜推广。近些年来,一些机器学习算法被应用于模式识别领域,驾驶员行为识别也加入了Adaboost、SVM等机器学习方法,目前较好的结果大都出自神经网络。但是单一的神经网络结构无法处理复杂的实际状况,其准确率差强人意,需要一个更复杂更先进的算法与模型结构来完成。
技术实现思路
基于以上的论述,本专利技术要解决的技术问题是:提供一种自动高精度识别驾驶员不安全行为的方法与装置,能够实时地精确识别驾驶员的不安全行为,及时对驾驶员报警,提醒其做好安全行为并记录在案。为解决上述技术问题,第一方面,本专利技术实施例提供了一种自动高精度识别驾驶员不安全行为的方法,所述方法包括以下四大步骤:(1)采集特定车内实时图像传输到本地识别系统;(2)用特定卷积神经网络提取图像的底层特征;(3)对多种不安全行为,并行使用胶囊神经网络处理底层特征以获得图像的高层特征并进行分类;(4)将得到的分类结果传到报警模块,引发相关警告,并记录在案。根据第一方面,在第一种可能的实现方式中,车内实时图像的来源来自于实时监控设备。实时监控设备种类繁多,一个关键问题就是如何选取一种设备与后端的识别相搭配。通过实践发现下面一个事实:简单的低分辨率黑白摄像头难以采集足够多的行为信息,而高成本的红外双目摄像头则造价高昂,没有必要。DriverBeCog在整个生命周期使用360P及以上分辨率的三通道摄像头。检测与识别过程中,摄像头位于车辆车内后视镜旁,采集驾驶位的正面信息,包含驾驶员的面部信息、手臂位置信息、整个上半身的正面图像信息等。摄像头的位置与采集的信息是本方法的特征之一。根据第一方面,在第二种可能的实现方式中,特定卷积神经网络的层数不超过10层,卷积核大小在3*3到5*5之间,用于提取图像底层的信息,包括图像的边、点、形状、颜色等。此卷积神经网络的输入为图像像素RGB值,通过机器学习中的神经元模型、深度学习中的相关方法实现对底层特征的提取。DriverBeCog中卷积神经网络模型的训练采用有监督学习的方式。将事先收集好的监控视频提取关键帧进行采样,然后人工对采样的图像帧进行标注(违规或不违规),最后在大量数据的条件下通过梯度下降算法训练出卷积网络模型的参数。DriverBeCog在视频提取关键帧时,采用了每40帧采样1次的频率,根据实验,这样有助于防止模型过拟合。根据第一方面,在第三种可能的实现方式中,并行对多种不安全行为进行分类。对驾驶员违规行为的识别可以看做是多标签分类问题,即一个样本(行为)具有多个特性(是否系安全带、是否抽烟、是否打电话等),处理这样的问题通常采用两种做法:单个模型处理和多个模型并发处理。DriverBeCog采用多个模型并发处理的方法,因为单个模型虽然实现简单,等同于多分类问题(一个正常类,多个交叉的错误类),缺点在于不同行为之间的耦合较强,从软件工程的角度来讲,不利于软件开发。而多个模型对每种违规行为的判定可作为一个模块,易于功能扩展,加入新模块无需对已训练好的模块重新训练;由于不同模块的复杂度不同,处理同样的原图像,程序各模块独立性高。当后期开发需要加入新的模块(如对于其他违规行为的识别)时,这种方式有更大的优势。同时使用胶囊网络(CapsuleNet)处理卷积神经网络得到的特征,实现分类。胶囊网络是Hinton在2017NIPS会议上重新构造的神经网络,其具有一系列优点。DriverBeCog基于此设计了更加完善的结构,使用了姿态向量的长度来表示由一个capsule所表示的实体存在的概率;使用了向量之间的角的余弦来测量它们之间的一致性;使用了长度为n的向量,而不是有n个元素的矩阵来表示一个状态,所以其变换矩阵具有n*n个参数,而不只是n个。胶囊神经网络具有更强的表现能力,更加适合用作高层特征的处理。根据第一方面的第四种可能的实现方式,所述的报警模块位于本地而非云端。当驾驶员有不安全行为时,对其的记录位于本地,但会定时在有网络的形况下(到达据点)传入云端数据库,以备数据分析和对驾驶员的加强教育。第二方面,本专利技术实施例提供了一种自动高精度识别驾驶员不安全行为的装置,所述装置四大模块包括:(1)监控模块:实时传入视频流;(2)识别软件模块;解析视频流,通过神经网络进行分类;(3)报警模块:对驾驶员进行报警,并记录进数据库;(4)反馈模块:事后用户根据实际和数据库中的日志对识别情况进行反馈。根据第二方面,在第一种可能的实现方式中,DriverBeCog在整个生命周期使用360P及以上分辨率的三通道摄像头。检测与识别过程中,摄像头位于车辆车内后视镜旁,采集驾驶位的正面信息,包含驾驶员的面部信息、手臂位置信息、整个上半身的正面图像信息等。根据第二方面,在第二种可能的实现方式中,将三通道的图像作为输入,通过卷积神经网络提取底层特征,继而通过胶囊网络提取高层特征以达到分类识别的目的。卷积神经网络这种深度前馈神经网络,在图像识别的应用效果较好。DriverBeCog训练神经网络的数据来自车内摄像头采集视频提取的特征帧,数据由预处理流入、卷积神经网络流出、经过胶囊网络得到输出。使用卷积神经网络+胶囊网络的方法是DriverBeCog装置的一大创新点。根据第二方面,在第三种可能的实现方式中,报警模块不仅提供声音的报警功能,并且能将事件记录到数据库中,每一条记录包括且不限于:发生时间、行为、持续时间、瞬时图像等。当驾驶员改善行为,报警模块做出相应的反应(停止报警)。根据第二方面,在第四种可能的实现方式中,在后台(或者云端服务上),反馈模块定时要求用户(驾驶员与评审员)对报警发生的记录和未发生的记录抽样进行人工评估。反馈模块用于检查出软件识别模块的不精确之处,以在新一代的产品中对软件识别模块中的卷积神经网络和胶囊神经网络进行调整训练(finetuning)。第三方面,本专利技术实施例提供了一种自动高精度识别驾驶员不安全行为的装置,包括第二方面或第二方面任一种可能的实现方式所述的识别系统。第四方面,本专利技术实施例提供了一种自动识别驾驶员不安全行为的精度提升方法,其特征在于,所述驾驶员不安全行为自动识别系统使用第一方面或第一方面任一种本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的高精度自动识别驾驶员不安全行为的方法,其特征在于,所述方法包括步骤:(1)采集特定车内实时图像传输到本地识别系统;(2)用特定卷积神经网络提取图像的底层特征;(3)对多种不安全行为,并行使用胶囊神经网络处理底层特征以获得图像的高层特征并进行分类;对网络训练时采用调节权重的方法处理样本不均衡问题;(4)将得到的分类结果传到报警模块,引发相关警告,并记录在案。

【技术特征摘要】
1.一种基于卷积神经网络的高精度自动识别驾驶员不安全行为的方法,其特征在于,所述方法包括步骤:(1)采集特定车内实时图像传输到本地识别系统;(2)用特定卷积神经网络提取图像的底层特征;(3)对多种不安全行为,并行使用胶囊神经网络处理底层特征以获得图像的高层特征并进行分类;对网络训练时采用调节权重的方法处理样本不均衡问题;(4)将得到的分类结果传到报警模块,引发相关警告,并记录在案。2.根据权利要求1所述的方法,其特征在于,所述的自动识别方法的图像采集来源为实时监控设备,为了在种类繁多的实时监控设备中选取一种设备与后端的识别过程相搭配,进行了大量实践发现下面一个事实:简单的低分辨率黑白摄像头难以采集足够多的行为信息;而高成本的红外双目摄像头则造价高昂,没有必要,因此DriverBeCog在整个生命周期使用360P及以上分辨率的三通道摄像头;检测与识别过程中,摄像头位于车辆车内后视镜旁,采集驾驶位的正面信息,包含驾驶员的面部信息、手臂位置信息、整个上半身的正面图像信息等;摄像头的位置与采集的信息是本方法的特征之一。3.根据权利要求1所述的方法,其特征在于:特定卷积神经网络的层数不超过10层,卷积核大小在3*3到5*5之间,用于提取图像底层的信息,包括图像的边、点、形状、颜色等;此卷积神经网络的输入为图像像素RGB值,通过机器学习中的神经元模型、深度学习中的相关方法实现对底层特征的提取;DriverBeCog中卷积神经网络模型的训练采用有监督学习的方式,将事先收集好的监控视频提取关键帧进行采样,然后人工对采样的图像帧进行标注(违规或不违规),最后在大量数据的条件下通过梯度下降算法训练出卷积网络模型的参数;DriverBeCog在视频提取关键帧时,采用了每40帧采样1次的频率,根据实验,这样有助于防止模型过拟合。4.根据权利要求1所述的方法,其特征在于:并行对多种不安全行为进行分类,因为对驾驶员违规行为的识别可以看做是多标签分类问题,即一个样本(行为)具有多个特性(是否系安全带、是否抽烟、是否打电话等),所以处理这样的问题通常采用两种做法:单个模型处理和多个模型并发处理,DriverBeCog采用多个模型并发处理的方法,因为单个模型虽然实现简单,等同于多分类问题(一个正常类,多个交叉的错误类),缺点在于不同行为之间的耦合较强,从软件工程的角度来讲,不利于软件开发,而多个模型对每种违规行为的判定可作为一个模块,易于功能扩展,加入新模块无需对已训练好的模块重新训练;由于不同模块的复杂度不同,处理同样的原图像,程序各模块独立性高,当后期开发需要加入新的模块(如对于其他违规行为的识别)时,这种方式有更大的优势;在训练时,由于样本是不均衡的,即采集的图像中安全与不安全图像的数据量严重失衡,在具体训练模型的过程中,本方法采用了增加...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:田文洪曾柯铭吝博强何马均
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1