当前位置: 首页 > 专利查询>山东大学专利>正文

基于骨架和语义信息混合的驾驶员行为识别方法及系统技术方案

技术编号:36693214 阅读:29 留言:0更新日期:2023-02-27 20:02
本发明专利技术公开了一种基于骨架和语义信息混合的驾驶员行为识别方法及系统,涉及驾驶员行为识别技术领域。将基于语义信息和骨架信息的行为识别方法通过基于驾驶员骨架关键点的空间软注意力机制融合起来,识别驾驶员行为。首先设计了一种基于驾驶员骨架关键点信息的空间软注意力模块,该模块在驾驶员手部和头部的语义信息上赋予较大权值,而抑制全局背景信息,以针对性提升驾驶员行为相关的语义特征提取性能;然后设计了一种基于驾驶员骨架和语义信息的混合网络,用于提取驾驶员行为识别相关的语义和时间特征。此外,在夜间驾驶员行为识别任务中,引入自适应直方图均衡化和迁移学习方法解决夜间驾驶数据亮度低和数量少的问题。方法解决夜间驾驶数据亮度低和数量少的问题。方法解决夜间驾驶数据亮度低和数量少的问题。

【技术实现步骤摘要】
基于骨架和语义信息混合的驾驶员行为识别方法及系统


[0001]本专利技术涉及驾驶员行为识别
,尤其涉及一种基于骨架和语义信息混合的驾驶员行为识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]驾驶员在驾驶过程中的行为是否规范,严重影响到驾驶安全以及道路安全。驾驶员行为识别是指识别车舱内驾驶员在驾驶过程中的各种行为,如打电话、喝水、调收音机等,广泛应用于辅助驾驶和自动驾驶系统,对驾驶安全具有重要意义。现有驾驶员行为识别方法多基于语义信息或骨架信息。基于语义信息的方法多采用图片或视频数据作为输入,前者缺乏时间信息及运动模式,后者存在大量冗余信息、计算量大;基于骨架信息的驾驶员行为识别方法以驾驶员骨架关键点序列作为输入,计算量小、推理速度快,但缺乏场景语义信息和目标交互信息,识别准确率低。注意力机制也广泛应用于驾驶员行为识别方法中,但往往没有针对驾驶员行为识别任务做相应优化,无法精确定位到驾驶员行为最相关的部分。另外,在夜间环境中,会由于驾驶数据亮度低,可用数据少的问题,导致模型训练困难,识别结果不准确,大大增加了行车安全隐患。

技术实现思路

[0004]针对现有技术存在的不足,本专利技术的目的是提供基于骨架和语义信息混合的驾驶员行为识别方法及系统,本专利技术扩展了用于驾驶员行为识别的数据模态,以语义信息和骨架信息作为模型输入分别在语义流和骨架流提取驾驶行为时空特征,借助基于驾驶员骨架关键点信息的空间软注意力机制在语义流高效提取驾驶行为相关的细节语义信息,并利用线性融合策略,融合语义流和骨架流的结果,输出最终驾驶员行为识别结果。
[0005]为了实现上述目的,本专利技术采用的技术方案为:提供了一种利用语义信息和骨架信息,借助基于驾驶员骨架关键点信息的空间软注意力机制和线性融合策略的驾驶员行为识别方法,包括:基于驾驶员骨架关键点信息的空间软注意力模块,基于驾驶员骨架和语义信息的混合网络,以及针对夜间驾驶数据亮度低和数量少问题的自适应直方图均衡化和迁移学习方法。
[0006]本专利技术第一方面提供了一种基于骨架和语义信息混合的驾驶员行为识别方法,包括以下步骤:
[0007]输入视频帧序列,利用姿态估计算法获取驾驶员骨架关键点序列,并从中提取驾驶员手部和头部关键点坐标;
[0008]在输入视频帧中,根据驾驶员2个手部和头部关键点为区域中心,设定值为半径的圆形区域的组合初步确定驾驶员行为相关感兴趣区域;
[0009]生成与输入视频帧大小相同的注意力掩膜,将注意力掩膜与相应输入视频帧叠
加,获得带有注意力掩膜的视频帧序列;
[0010]利用骨架关键点序列和自适应图卷积神经网络得到骨架流预测结果;利用带有注意力掩膜的视频帧序列和慢速语义网络得到语义流预测结果;
[0011]以骨架流预测结果和语义流预测结果为输入,利用线性融合策略进行行为预测结果融合,获取最终的驾驶员行为识别结果。
[0012]进一步的,确定驾驶员行为相关感兴趣区域后,根据驾驶员行为特点,调整初步结果以得到最终驾驶员行为感兴趣区域。
[0013]进一步的,注意力掩膜中感兴趣区域设置高灰度值,背景区域设置低灰度值。
[0014]进一步的,获取骨架流预测结果的具体步骤为:以骨架关键点序列为输入,构建以驾驶员骨架关键点为顶点,以骨架关键点自然连接关系为边的骨架图序列,利用自适应图卷积神经网络提取驾驶员行为时空特征,得到骨架流预测结果。
[0015]更进一步的,首先对输入的骨架关键点序列进行数据扩增和批量归一化,然后利用自适应图卷积网络进行时空特征提取,自适应图卷积网络由9个自适应图卷积模块组成,在骨架流的末端为全局平均池化层和softmax层,输出骨架流预测结果。
[0016]进一步的,获取语义流预测结果的具体步骤为:以带有注意力掩膜的视频帧序列为输入,提取稀疏视频帧序列,利用慢速语义网络高效提取驾驶员行为时空特征,得到语义流预测结果。
[0017]更进一步的,以带有注意力掩膜的视频帧序列为输入后,对输入帧稀疏采样,借助调整后的3D ResNet网络进行特征提取,将语义流看作慢速语义特征提取网络,在慢速语义特征提取网络的末端引入全局平均池化、全连接层和softmax层,输出语义流预测结果。
[0018]进一步的,利用自适应直方图均衡化和迁移学习方法对夜间驾驶数据进行处理,从而实现夜间驾驶员行为识别。
[0019]更进一步的,以夜间驾驶员视频帧序列为输入,利用直方图均衡化操作调整图像的灰度值,将图像划分成若干个的小块区域,以自适应调整各区域的局部特征和边界,并限制图像对比度以降低噪声,获取灰度对比更强的夜间驾驶员视频帧序列;
[0020]以经过处理的夜间驾驶员视频帧序列为输入,迁移在日间驾驶员视频帧序列上训练得到的驾驶员行为识别模型到基于语义骨架空间注意力混合网络的驾驶员行为识别网络,训练针对夜间环境的驾驶员行为识别模型。
[0021]本专利技术第二方面提供了一种基于骨架和语义信息混合的驾驶员行为识别系统,包括:
[0022]骨架关键点获取模块,被配置为输入视频帧序列,利用姿态估计算法获取驾驶员骨架关键点序列,并从中提取驾驶员手部和头部关键点坐标;
[0023]感兴趣区域模块,被配置为在输入视频帧中,根据驾驶员2个手部和头部关键点为区域中心,设定值为半径的圆形区域的组合初步确定驾驶员行为相关感兴趣区域;
[0024]注意力掩膜模块,被配置为生成与输入视频帧大小相同的注意力掩膜,将注意力掩膜与相应输入视频帧叠加,获得带有注意力掩膜的视频帧序列;
[0025]结果预测模块,被配置为利用骨架关键点序列和自适应图卷积神经网络得到骨架流预测结果;利用带有注意力掩膜的视频帧序列和慢速语义网络得到语义流预测结果;
[0026]行为识别结果模块,被配置为以骨架流预测结果和语义流预测结果为输入,利用
线性融合策略进行行为预测结果融合,获取最终的驾驶员行为识别结果。
[0027]以上一个或多个技术方案存在以下有益效果:
[0028](1)本专利技术设计基于骨架关键点信息的空间软注意力模块,精确定位驾驶员行为相关感兴趣区域,有利于高效提取驾驶员行为相关区域特征。
[0029](2)本专利技术设计基于驾驶员骨架和语义信息的混合网络,有效融合驾驶员行为相关的语义和骨架信息,两种信息优势互补,有效提升驾驶员行为识别准确性。
[0030](3)本专利技术在夜间驾驶员行为识别任务中引入限制对比度的直方图均衡化操作和迁移学习方法,有利于解决夜间驾驶员行为数据亮度和对比度低、数量少的问题,提高夜间驾驶员行为识别方法的性能。
[0031]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0032]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于骨架和语义信息混合的驾驶员行为识别方法,其特征在于,包括以下步骤:输入视频帧序列,利用姿态估计算法获取驾驶员骨架关键点序列,并从中提取驾驶员手部和头部关键点坐标;在输入视频帧中,根据驾驶员2个手部和头部关键点为区域中心,设定值为半径的圆形区域的组合初步确定驾驶员行为相关感兴趣区域;生成与输入视频帧大小相同的注意力掩膜,将注意力掩膜与相应输入视频帧叠加,获得带有注意力掩膜的视频帧序列;利用骨架关键点序列和自适应图卷积神经网络得到骨架流预测结果;利用带有注意力掩膜的视频帧序列和慢速语义网络得到语义流预测结果;以骨架流预测结果和语义流预测结果为输入,利用线性融合策略进行行为预测结果融合,获取最终的驾驶员行为识别结果。2.如权利要求1所述的基于骨架和语义信息混合的驾驶员行为识别方法,其特征在于,确定驾驶员行为相关感兴趣区域后,根据驾驶员行为特点,调整初步结果以得到最终驾驶员行为感兴趣区域。3.如权利要求1所述的基于骨架和语义信息混合的驾驶员行为识别方法,其特征在于,注意力掩膜中感兴趣区域设置高灰度值,背景区域设置低灰度值。4.如权利要求1所述的基于骨架和语义信息混合的驾驶员行为识别方法,其特征在于,获取骨架流预测结果的具体步骤为:以骨架关键点序列为输入,构建以驾驶员骨架关键点为顶点,以骨架关键点自然连接关系为边的骨架图序列,利用自适应图卷积神经网络提取提取驾驶员行为时空特征,得到骨架流预测结果。5.如权利要求4所述的基于骨架和语义信息混合的驾驶员行为识别方法,其特征在于,首先对输入的骨架关键点序列进行数据扩增和批量归一化,然后利用自适应图卷积网络进行时空特征提取,自适应图卷积网络由9个自适应图卷积块组成,在骨架流的末端为全局平均池化层和softmax层,输出骨架流预测结果。6.如权利要求1所述的基于骨架和语义信息混合的驾驶员行为识别方法,其特征在于,获取语义流预测结果的具体步骤为:以带有注意力掩膜的视频帧序列为输入,提取稀疏视频帧序列,利用慢速语义网络高效提取驾驶员行为时空特征,得到语义流预测...

【专利技术属性】
技术研发人员:常发亮刘辉刘春生路彦沙刘民航
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1