一种基于多尺度融合的驾驶员注意力预测方法技术

技术编号:39006209 阅读:12 留言:0更新日期:2023-10-07 10:37
本发明专利技术公布了一种基于多尺度融合的驾驶员注意力预测方法。该方法首先利用VGG16获取视频帧的多尺度特征,并构建了多尺度融合模块,通过上、下两个方向的特征传递,充分利用高低层特征间的互补性,融合多尺度信息。然后使用Conv

【技术实现步骤摘要】
一种基于多尺度融合的驾驶员注意力预测方法


[0001]本专利技术属于交通管理
,具体涉及一种基于多尺度融合的驾驶员注意力预测方法。

技术介绍

[0002]在驾驶汽车的过程中,驾驶员除了要将车辆保持在车道线之内、观察红绿灯情况,还需要观察附近的车辆与行人,预测可能发生的危险。如果驾驶员不能合理地处理这些并发情况,那很有可能会引发交通事故,造成难以承担的后果。
[0003]研究表明驾驶员的注意力不集中、分心会增加交通事故产生的可能性。这是因为人类的视觉注意力能够帮助驾驶员快速识别和定位潜在的风险或视野中重要的视觉线索,如忽然出现的行人、闯入的非机动车以及红绿灯的变化情况。更有研究者指出,从视觉感知的角度出发,驾驶员在驾驶过程当中所获得的驾驶信息有90%是来自于人类的视觉系统。因此研究驾驶员在清醒状态下的视觉注意力焦点,将为辅助驾驶和自动驾驶的发展提供很大的帮助,减少因注意力不集中、分心等行为带来的驾驶事故。
[0004]随着深度学习技术的快速发展,越来越多的人致力于基于深度学习的驾驶员注意力预测技术研究,相比于传统的信息论模型、图论模型等方法,基于深度学习方法能够获得更高的精度与鲁棒性,为驾驶过程中的安全性提供更好的保障。现有的深度学习方法多是基于卷积神经网络(CNN)进行训练,例如SCAFNet结合语义图像辅助进行驾驶员注意力预测,VADD使用条件生成对抗网络(GAN)来预测驾驶员注意力。虽然这些方法考虑了不同模态的信息、以及对抗的思想,在精度上有所提升,但是对于多尺度信息的利用存在不足,没有充分考虑不同层特征之间强大的互补效果,导致无法很好处理驾驶图像中复杂的信息与干扰。虽然SCAFNet尝试直接将语义图像与RGB图像作为输入来融合两种特征,但需要提前进行将RGB图像转换为语义图像,计算量相对较大,也没有实现多尺度特征的有效融合。

技术实现思路

[0005]针对现有技术的不足,本专利技术提出了一种基于多尺度融合的驾驶员注意力预测方法,利用VGG16获取RGB图像的多尺度特征,并有效融合多尺度特征,获取更多全局与局部信息。进一步使用Conv

LSTM融合时空信息,以提高结果的准确性与鲁棒性,改善驾驶员注意力预测任务性能。
[0006]一种基于多尺度融合的驾驶员注意力预测方法,包括如下步骤:
[0007]步骤1、获取驾驶员在驾驶场景下的连续视频帧,按帧分解后作为输入数据。
[0008]步骤2、使用包括5个卷积模块堆叠而成的VGG16模型对输入数据进行特征提取,从第2~5个卷积模块的输出得到四个多尺度特征图T1~T4。
[0009]步骤3、对T1~T4进行特征增强处理,其中令A1=T1。对T2~T4使用对应的特征图T1~T3进行辅助增强,输出增强后的特征图A2~A4。然后将增强后的特征图A1~A4输入双向密集连接网络中,完成由下到上和由上到下的两次传递融合后,输出融合特征T
c

[0010]步骤4、针对连续视频帧的融合特征T
c
进行空间注意力增强,然后将增强结果按照时序顺序输入Conv

LSTM中,Conv

LSTM用于捕捉连续T帧图像中的关键信息与时空关系,并将其转移到之后的图像帧上,为每一帧图像生成对应的潜在驾驶员注意力特征T
out

[0011]步骤5、使用解码器处理Conv

LSTM输出的注意力特征T
out
,得到驾驶员注意力预测结果。
[0012]本专利技术具有以下有益效果:
[0013]本方法使用VGG16作为特征提取的主干网络,提取输入数据的多尺度特征,然后使用基于注意力机制的方式融合邻近尺度特征,通过低维特征的辅助改善高维特征、过滤噪声,得到一组新的多尺度特征,之后将多尺度特征送入双向密集连接的网络当中,经过卷积、上下采样、激活函数、相加等操作有效提取多尺度信息。之后通过坐标注意力(Coordinate Attention,CoA)与Conv

LSTM的联合使用以更好地捕捉连续帧之间的时间动态关系,强化网络对多尺度上下文信息的提取能力,过滤干扰信息,并有效获取连续帧之间的时序关系,从而帮助建模驾驶员的视觉注意力,并且相比传统方法以及现有深度模型,预测的效果更加优秀,能用以辅助自动驾驶与辅助驾驶,减少驾驶事故的发生。
附图说明
[0014]图1为基于多尺度融合的驾驶员注意力预测方法流程图;
[0015]图2为实施例中构建的网络模型结构示意图;
[0016]图3为实施例中邻近尺度注意模块结构示意图;
[0017]图4为实施例中通道注意力示意图;
[0018]图5为实施例中双向密集连接网络结构示意图;
[0019]图6为残差块结构示意图;
[0020]图7(a)为实施例中输入网络模型的RGB图像,图7(b)为对应的网络预测结果图,图7(c)为真实的注意力标签。
具体实施方式
[0021]以下结合附图对本专利技术作进一步的解释说明;
[0022]如图1所示,一种基于多尺度融合的驾驶员注意力预测方法,具体包括如下步骤:
[0023]步骤1、获取驾驶员在驾驶场景下的连续视频帧。对视频帧进行归一化等数据增广操作,之后将图像分辨率缩放至384
×
256作为输入数据。
[0024]步骤2、如图2所示,使用具有5个卷积模块构成的VGG16模型,向其输入步骤1中所述的输入数据,从第2~5的卷积模块的输出依次获得多尺度特征图T1~T4。
[0025]步骤3、对多尺度特征图T1~T4进行融合,具体步骤如下:
[0026]步骤3.1、由于特征图T1~T4的维度不同,因此所包含的信息也有所区别,为了更好地融合多尺度信息,分别将相邻两个尺度的特征图输入到3个结构相同的邻近尺度注意模块ASAM中,用以增强特征的表征能力,抑制噪声,获得新的特征A2~A4,A1=T1。
[0027]所述ASAM的结构如图3所示,首先对输入特征T
i
进行处理得到R
i

[0028]R
i
=σ
s
(Conv3(Conv1(T
i
)+Conv3(CA(Conv3(LN(Conv1(T
i
)))))))
ꢀꢀꢀꢀꢀ
(1)
[0029]其中,Conv1表示卷积核大小为1的卷积操作,Conv3表示卷积核大小为3的卷积操
作,σ
s
()表示Sigmoid激活函数,LN表示层归一化,用于稳定训练过程。CA表示通道注意力操作,如图4所示,CA首先通过全局平均池化层将空间信息压缩到通道中,之后使用一个1
×
1卷积计算通道注意力:
[0030]CA(x)=x*Conv1(pool(x))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度融合的驾驶员注意力预测方法,使用驾驶场景的RGB视频预测驾驶员的注意力区域,其特征在于:具体包括以下步骤:步骤1、对驾驶员在驾驶场景下的连续视频按帧分解成一系列RGB图像,作为输入数据;步骤2、使用包括5个卷积模块的VGG16模型对输入数据进行特征提取,从第2~5个卷积模块的输出得到四个多尺度特征图T1~T4;步骤3、对T1~T4进行特征增强处理,其中A1=T1;对T2~T4使用对应的特征图T1~T3进行辅助增强,输出增强后的特征图A2~A4;然后将增强后的特征图A1~A4输入双向密集连接网络中,完成由下到上和由上到下的两次传递融合后,输出融合特征T
c
;步骤4、针对连续视频帧的融合特征T
c
进行空间注意力增强,然后将增强结果按照时序顺序输入Conv

LSTM中,Conv

LSTM用于捕捉连续T帧图像中的关键信息与时空关系,并将其转移到之后的图像帧上,为每一帧图像生成对应的潜在驾驶员注意力特征T
out
;步骤5、使用解码器处理Conv

LSTM输出的注意力特征T
out
,得到驾驶员注意力预测结果。2.如权利要求1所述一种基于多尺度融合的驾驶员注意力预测方法,其特征在于:对于分解后的RGB图像进行归一化操作,然后将分辨率调整至统一大小。3.如权利要求1所述一种基于多尺度融合的驾驶员注意力预测方法,其特征在于:在步骤3中,使用邻近尺度注意模块对T2~T4进行增强。4.如权利要求1或3所述一种基于多尺度融合的驾驶员注意力预测方法,其特征在于:R
i
=σ
s
(Conv3(Conv1(T
i
)+Conv3(CA(Conv3(LN(Conv1(T
i
)))))))CA(x)=x*Conv1(pool(x))其中,i=2,3,4,Conv1表示卷积核大小为1的卷积操作,Conv3表示卷积核大小为3的卷积操作,

表示下采样操作,表示逐元素加法,表示逐元素乘法,LN表示层归一化,CA表示通道注意力操作,x表示CA的输入数据,pool为全局平均池化。5....

【专利技术属性】
技术研发人员:冯建文俞成斌
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1