基于多模态融合的自动驾驶安全性辅助方法和系统技术方案

技术编号:44412374 阅读:52 留言:0更新日期:2025-02-25 10:26
本发明专利技术涉及基于多模态融合的自动驾驶安全性辅助方法和系统,属于自动驾驶领域。该系统由多模态传感器、预处理单元、特征编码器、时序合并模块、上下文注意力模块、分类模块、数据存储单元、输出单元构成。该方法包含以下步骤:S1:采集视觉图像数据和非视觉图像数据;S2:对视觉图像数据和非视觉图像数据进行预处理;S3:利用特征编码器进行特征提取;S4:利用时序合并模块进行关键事件划分:S5:利用上下文注意力模块对进行特征融合;S6:将融合特征输入分类模块中,预测行人行为类型;S7:将预测行人行为类型结果存储,并反馈给汽车终端系统。本发明专利技术方法能够有效地识别和聚合与行人行为相关的关键事件,提高行人行为意图预测的准确性和效率。

【技术实现步骤摘要】

本专利技术涉及基于多模态融合的自动驾驶安全性辅助方法和系统,属于自动驾驶领域,尤其涉及一种基于多模态融合学习的自动驾驶安全性辅助。


技术介绍

1、随着自动驾驶技术的快速发展,车辆在复杂的道路环境中与其他交通参与者的交互变得越来越频繁和重要。行人作为道路上最脆弱的参与者,其安全性一直是自动驾驶和辅助驾驶系统关注的焦点。在现实世界中,准确预测行人是否有过街的意图对于保障道路交通安全具有重要意义。自动驾驶车辆需要具备提前感知和理解行人意图的能力,以便在行人做出过街行为之前,及时采取适当的措施,如减速、停车或变道等。然而,行人的行为往往受到多种因素的影响,如交通标志、交通信号灯、道路状况、天气条件、行人自身状态、自车速度以及其他交通参与者的行为等。这些因素的复杂性和多样性给行人过街意图的准确预测带来了巨大的挑战。

2、传统的行人意图预测方法主要依赖于对行人运动轨迹、姿态和面部表情的分析。然而,这些方法在处理高冗余的视频帧时,往往难以有效地捕捉与行人行为相关的关键事件,导致预测性能不佳。此外,在复杂的交通环境中,仅依靠单一的视觉信息难以全面理解行人的意图本文档来自技高网...

【技术保护点】

1.基于多模态融合的自动驾驶安全性辅助系统,其特征在于,由多模态传感器(1)、预处理单元(2)、特征编码器(3)、时序合并模块(4)、上下文注意力模块(5)、分类模块(6)、数据存储单元(7)、输出单元(8)构成;所述的多模态传感器(1)包含视觉图像传感器(11)和非视觉图像传感器(12),分别按照周期采集视觉图像数据和非视觉图像数据;所述的预处理单元(2)分别与数据存储单元(7)、特征编码器(3)相连,用于对视觉图像数据和非视觉图像数据的预处理;所述的特征编码器(3)包含视觉编码器(31)、非视觉编码器(32);所述的视觉编码器(31)和非视觉编码器(32)分别采用深度学习网络实现对应...

【技术特征摘要】

1.基于多模态融合的自动驾驶安全性辅助系统,其特征在于,由多模态传感器(1)、预处理单元(2)、特征编码器(3)、时序合并模块(4)、上下文注意力模块(5)、分类模块(6)、数据存储单元(7)、输出单元(8)构成;所述的多模态传感器(1)包含视觉图像传感器(11)和非视觉图像传感器(12),分别按照周期采集视觉图像数据和非视觉图像数据;所述的预处理单元(2)分别与数据存储单元(7)、特征编码器(3)相连,用于对视觉图像数据和非视觉图像数据的预处理;所述的特征编码器(3)包含视觉编码器(31)、非视觉编码器(32);所述的视觉编码器(31)和非视觉编码器(32)分别采用深度学习网络实现对应的预处理后的视觉图像数据和非视觉图像数据的特征提取;所述的时序合并模块(4)与特征编码器(3)相连,基于深度学习网络实现,用于事件划分;所述的上下文注意力模块(5)与时序合并模块(4)相连,基于深度学习网络实现,用于实现事件的特征融合;所述的分类模块(6)与上下文注意力模块(5)相连,基于分类器实现,用于划分行人行为类型;所述的数据存储单元(7)分别与多模态传感器(1)、分类模块(6)和输出单元(8)相连,用于数据存储;所述的输出单元(8)为通讯模块,用于将行人行为类型反馈给汽车终端系统。

2.根据权利要求1所述的基于多模态融合的自动驾驶安全性辅助系统,其特征在于,所述的视觉编码器(31)采用的是预训练的video-vit-base模型,对视觉特征进行提取;所述的非视觉编码器(32)采用的是基于video-...

【专利技术属性】
技术研发人员:陈琳梁宏斌尚明生龚治岗
申请(专利权)人:中国科学院重庆绿色智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1