当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于LSTM和SSD轻量化网络结合的疲劳检测方法技术

技术编号:38651131 阅读:14 留言:0更新日期:2023-09-02 22:39
本发明专利技术公开了一种基于LSTM和SSD轻量化网络结合的疲劳检测方法,本发明专利技术利用轻量化的SSD网络对驾驶员采集的图片状态进行建模,从而可以有效地提取驾驶员的疲劳特征,同时利用LSTM网络可以有效地捕捉时序数据中的关联关系的特点,对获取的状态标签进行回归处理,进行实时的疲劳检测。相比于现有技术,解决了部分算法实时性不足、准确性不高、计算消耗大等问题。问题。问题。

【技术实现步骤摘要】
一种基于LSTM和SSD轻量化网络结合的疲劳检测方法


[0001]本专利技术涉及神经网络和深度学习的
,具体涉及一种基于LSTM和SSD轻量化网络结合的疲劳检测方法。

技术介绍

[0002]疲劳驾驶是指由于长时间连续驾驶、不良的睡眠质量、身体疲劳等因素导致驾驶员在驾驶过程中出现注意力不集中、反应迟缓、思维不清晰、眼睛发涩等症状,甚至出现昏睡、失去意识等现象的行为。这是一种及其危险的驾驶行为,容易引发交通事故,严重危害驾驶员和他人的生命财产安全。因此,对于驾驶员的疲劳状态进行有效的监测和预警具有重要的意义。
[0003]一些已有的疲劳检测技术主要基于驾驶员的生理参数或车辆运动参数,例如测量心率、瞳孔反应、脑电波等生理参数或监测车辆加速度、转向角度等运动参数。然而,这些方法需要专业设备的支持,成本高昂,无法广泛普及。随着深度学习热潮的影响,计算机视觉算法也在疲劳驾驶检测中得到了广泛应用。例如,卷积神经网络(CNN)和长短时记忆网络(LSTM)等算法,可以通过分析驾驶员的面部表情、眼部状态、头部姿态等特征来判断驾驶员的疲劳程度。
[0004]然而利用计算机视觉方式进行疲劳驾驶检测存在一些问题。首先,训练深度学习模型需要大量的标注数据,然而标注数据的获取难度较大,往往需要大量的人工劳动。其次,算法的鲁棒性仍然需要进一步提高,例如算法可能受到光线、遮挡等环境因素的干扰。此外,算法的泛化能力还需要进一步提升,例如在不同的人群和不同的场景下,算法的准确率可能存在差异。由于深度学习算法的复杂性,其计算量和内存占用率较高,对于嵌入式系统等资源受限的设备,算法的适应性不高。

技术实现思路

[0005]本专利技术提出了一种基于LSTM网络和SSD轻量化网络的疲劳驾驶检测算法,旨在解决现有技术中实时性和准确性的困难。
[0006]本专利技术提出一种针对车联网入侵检测技术,包括以下步骤:
[0007]S1:制作图片数据集与文本标签数据集;
[0008]S2:分别搭建SSD网络模型和LSTM网络模型;
[0009]S3:分别对图片和文本数据进行数据预处理;
[0010]S4:分别对SSD网络模型和LSTM网络模型进行训练;
[0011]S5:使用SSD网络模型和LSTM网络模型进行模型疲劳预测。
[0012]优选的,所述S1中,图片数据集包括自采数据集、YAWDD公开数据集以及网络来源数据集;文本标签数据集包括随机出现的open_eye、closed_eye、open_mouth、closed_mouth、yaw这五个字符串,生成90个字符串为一个独立语句;为使生成的语句符合驾驶员表情规律,设置了不同的字符串概率;其中,字符串出现的概率分别约为open_eye:62.2%、
closed_eye:3.9%、open_mouth:16.5%、closed_mouth:16.5%、yaw:0.7%,统计生成了10000条文本语句,每条语句为90个字符串。
[0013]更优的,对整合好的图片数据集进行标签的划分,使用LabelImg图像标注工具对司机人脸的眼睛、嘴巴进行框选标记,根据眼睛、嘴巴状态设计了open_eye、closed_eye、open_mouth、closed_mouth、yaw五种状态标签,一张图片标记三个目标框,三个标签,生成xml格式的标签文件;编写标签处理脚本,逐行查阅文本语句,对语句中关键信息如closed_eye、yaw进行统计,若发现yaw则判定为疲劳正样本,标记为1,若发现closed_eye大于22次,则判定为疲劳正样本,标记为1,其余为0。
[0014]优选的,所述S2中,将SSD网络模型中的主干网络VGG16替换成GhostNet,并为SSD网络模型添加注意力机制CBAM和ECA两种注意力机制;搭建LSTM网络模型步骤包括定义LSTM的输入和输出维度,输入维度是指每个时间步的特征向量的维度,输出维度是指每个时间步的隐藏状态向量的维度;接下来,定义LSTM的参数,包括隐藏状态的维度、网络层数、每个时间步的输入和输出维度;然后,定义LSTM的结构,LSTM由输入门、遗忘门和输出门组成,每个门都是一个神经网络结构,并指定这些门的参数,包括门的输入维度、输出维度、激活函数和权重等,最后将定义好的LSTM结构利用PyTorch中的nn.Module模块堆叠LSTM层。
[0015]优选的,所述S3中,数据预处理包括图片预处理和文字预处理,所述图片预处理步骤包括:
[0016]首先对图片进行RGB转换,接着给图像增加灰条,实现不失真的resize操作,对图片统一缩放成300*300的大小以便输入神经网络,输入图像被组织成一个批次(batch)的形式,使图片神经网络中以批次的形式得以并行处理,最后,使用(1)(2)式L2归一化的方法利用L2范数将输入的图片像素值的特征向量缩放到标准化范围,目的是确保输入数据具有零均值和单位方差,这有助于提高神经网络的性能并且可以帮助网络减轻图像亮度和对比度差异的影响;
[0017][0018][0019]其中,x
norm
是归一化后的特征向量,x是像素值的原始特征向量,∣∣x∣∣2是原始特征向量的2范数。
[0020]更优的,所述文字预处理步骤包括:
[0021]首先对标签字符串构建词汇表,对字符串进行分词、词形还原、词频统计操作,选取前max_vocab_size

2个最频繁的单词,留出一个位置给未登录词和一个位置给填充符,紧接着对字符串进行编号,从2号开始,留出0、1给未登录词和填充符;最后按照原始字符串格式将数字编号写入词汇表,最后,讲标签字符串文件按照词汇表转化成数字,然后将标签文件按行与字符串文件合并,取第一个位置作为labels的数字放置区域。
[0022]优选的,所述S4中,输入指定批次的300*300的RGB图片给主干网络Ghost

Net进行处理。
[0023]优选的,所述S5中,通过实时获取当前视频帧,1s的视频可以分解成30张图片,将30张图片输入到GhostNet

SSD网络中,经过GhostNet主干网络的特征提取层,生成一系列锚框,接着对每个锚框进行分类和回归,得到每个锚框的类别和位置偏移量,最后根据类别
和位置偏移量,对锚框进行解码,得到检测框的位置和大小,并根据置信度进行筛选,输出检测结果;利用权重使用LSTM网络对新的文本数据进行预测,接收来自SSD网络输出的单位时间文本标签字符串,将新的文本标签字符串拆分为若干个子序列,按照相同数据预处理方式将字符串数字化和embedding处理,然后将其输入到已经训练好的LSTM网络中,得到疲劳检测的预测结果,疲劳为1,非疲劳为0。
[0024]本专利技术与现有技术相比,还存在以下优点:
[0025]本专利技术的疲劳驾驶检测算法使用GhostNet作为轻量级主干网络具有高效、快速的特点,深度可分离卷积可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LSTM和SSD轻量化网络结合的疲劳检测方法,其特征在于,包括:S1:制作图片数据集与文本标签数据集;S2:分别搭建SSD网络模型和LSTM网络模型;S3:分别对图片和文本数据进行数据预处理;S4:分别对SSD网络模型和LSTM网络模型进行训练;S5:使用SSD网络模型和LSTM网络模型进行模型疲劳预测。2.根据权利要求1所述的一种基于LSTM和SSD轻量化网络结合的疲劳检测方法,其特征在于,所述S1中,图片数据集包括自采数据集、YAWDD公开数据集以及网络来源数据集;文本标签数据集包括随机出现的open_eye、closed_eye、open_mouth、closed_mouth、yaw这五个字符串,生成90个字符串为一个独立语句;为使生成的语句符合驾驶员表情规律,设置了不同的字符串概率;其中,字符串出现的概率分别约为open_eye:62.2%、closed_eye:3.9%、open_mouth:16.5%、closed_mouth:16.5%、yaw:0.7%,统计生成了10000条文本语句,每条语句为90个字符串。3.根据权利要求2所述的一种基于LSTM和SSD轻量化网络结合的疲劳检测方法,其特征在于,对整合好的图片数据集进行标签的划分,使用LabelImg图像标注工具对司机人脸的眼睛、嘴巴进行框选标记,根据眼睛、嘴巴状态设计了open_eye、closed_eye、open_mouth、closed_mouth、yaw五种状态标签,一张图片标记三个目标框,三个标签,生成xml格式的标签文件;编写标签处理脚本,逐行查阅文本语句,对语句中关键信息如closed_eye、yaw进行统计,若发现yaw则判定为疲劳正样本,标记为1,若发现closed_eye大于22次,则判定为疲劳正样本,标记为1,其余为0。4.根据权利要求1所述的一种基于LSTM和SSD轻量化网络结合的疲劳检测方法,其特征在于,所述S2中,将SSD网络模型中的主干网络VGG16替换成GhostNet,并为SSD网络模型添加注意力机制CBAM和ECA两种注意力机制;搭建LSTM网络模型步骤包括定义LSTM的输入和输出维度,输入维度是指每个时间步的特征向量的维度,输出维度是指每个时间步的隐藏状态向量的维度;接下来,定义LSTM的参数,包括隐藏状态的维度、网络层数、每个时间步的输入和输出维度;然后,定义LSTM的结构,LSTM由输入门、遗忘门和输出门组成,每个门都是一个神经网络结构,并指定这些门的参数,包括门的输入维度、输出维度、激活函数和权重等,最后将定义好的LSTM结构利用PyTorch中的nn.Module模块堆叠LSTM层...

【专利技术属性】
技术研发人员:尚文利温永辉张曼曹忠丁磊浣沙李淑琦时昊天
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1