基于多模态时空表征的级联深度强化学习安全决策方法技术

技术编号:43200809 阅读:31 留言:0更新日期:2024-11-01 20:19
本发明专利技术属于深度强化学习自动驾驶领域,涉及车辆安全决策技术,具体是一种基于多模态时空表征的级联深度强化学习安全决策方法,其先构建了一个多模态时空感知编码器从多模态连续输入中联合建模空间和运动信息,以获取动态驾驶场景的当前感知表征;而后,引入未来预测编码器从当前感知表征中捕获不同交通参与者之间的交互,获取未来预测表征;而后,连接当前感知表征和未来预测表征形成多模态时空表征并作为强化学习的状态输入,以全面把握场景,并结合分布式PPO算法,在针对安全决策设计的奖励函数指导下实现安全决策任务。本发明专利技术具有很高的环境适应性和决策成功率,能够在稠密交通场景中以及突发事件下实现智能汽车的主动安全决策任务。

【技术实现步骤摘要】

本专利技术属于深度强化学习自动驾驶领域,涉及车辆安全决策技术,具体涉及一种基于多模态时空表征的级联深度强化学习安全决策方法


技术介绍

1、在自动驾驶领域,确保车辆能够在多种多样的驾驶场景下做出安全决策是至关重要的,这直接关系到驾驶员和乘客的生命财产安全。传统的自动驾驶系统基本采用模块化方法,其中每个功能,如感知、预测和决策等,分别开发并集成到系统中。模块化方法中最常见的决策方法是使用基于规则的方法,这对于解决驾驶时发生的大量情况通常是无效的。因此,现有的方法主要趋向数据学习策略来实现安全决策,例如模仿学习和深度强化学习。

2、基于深度强化学习的自动驾驶安全决策方法是一种将长序列驾驶任务表征为马尔科夫决策过程,智能车辆通过与环境的不断交互,在奖励函数的指导下自行学习驾驶策略,从而根据当前状态观测给出自适应最优决策动作的方法。它允许智能汽车通过试错来优化其决策效果,而不依赖于人工设计的规则和人类驾驶数据。当前的深度强化学习自动驾驶方法主要分为两大类:端到端的方法和解耦的方法。端到端的方法直接学习从原始传感器数据到控制命令的映射。由于传感器数据通常本文档来自技高网...

【技术保护点】

1.基于多模态时空表征的级联深度强化学习安全决策方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于多模态时空表征的级联深度强化学习安全决策方法,其特征在于,所述的图像特征提取主干网络通过一个经过ImageNet预训练的ResNet-34网络的四个残差卷积块分别进行特征提取得到四个具有不同层次信息的图像特征其中Si表示不同的特征提取阶段。

3.如权利要求1所述的基于多模态时空表征的级联深度强化学习安全决策方法,其特征在于,所述的激光雷达BEV特征提取主干网络以连续六帧的六通道激光雷达BEV投影伪图像为输入项,通过一个引入时空卷积结构的VideoResnet...

【技术特征摘要】

1.基于多模态时空表征的级联深度强化学习安全决策方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于多模态时空表征的级联深度强化学习安全决策方法,其特征在于,所述的图像特征提取主干网络通过一个经过imagenet预训练的resnet-34网络的四个残差卷积块分别进行特征提取得到四个具有不同层次信息的图像特征其中si表示不同的特征提取阶段。

3.如权利要求1所述的基于多模态时空表征的级联深度强化学习安全决策方法,其特征在于,所述的激光雷达bev特征提取主干网络以连续六帧的六通道激光雷达bev投影伪图像为输入项,通过一个引入时空卷积结构的videoresnet-18网络的四个时空卷积块分别进行特征提取得到四个具有不同层次信息的激光雷达bev特征其中si表示不同的特征提取阶段。

4.如权利要求1所述的基于多模态时空表征的级联深度强化学习安全决策方法,其特征在于,所述的多模态特征融合网络用于将四个不同尺度的图像特征和四个不同尺度的激光雷达bev特征分别进行特征融合,融合时,先将两个分支的主干网络提取的图像特征和激光雷达bev特征经过维度重塑后连接得到序列向量然后将经过一个多模态融合transformer模块,实现不同模态特征之间的充分信息交互,获取到3d场景中的全局时空上下文特征最后,将切片且分别还原为和相同维度的特征,并和进行元素相加得到经过融合后的图像特征和激光雷达bev特征

5.如权利要求1所述的基于多模态时空表征的级联深度强化学习安全决策方法,其特征在于,图像分支和激光雷达bev分支分别使用不同的多任务头进行监督训练,图像分支由hdep和hsem两个任务头组成,分别为前视图像的深度估计和语义分割;bev点云分支由任务头hbev,hv和hbb组成,分别用于bev语义分割、周边车辆速度预测和2d目标检测。

6.如权利要求1所述的基于多模态时空表征的级联深度强化学习安全决策方法,其特征在于,所述的步骤s3中,位置注意力网络将多模态时空融合后的激光雷达bev特征flidar_fusion分别输入到三个卷积层获取三个与原来相同维度的特征图,然后将它们的维度调整为三个相同维度的二维特征和接着,在的转置和之间执行矩阵乘法,并应用softmax层计算空间注意力图slo;然后在slo和的转置之间执行矩阵乘法,捕获特征...

【专利技术属性】
技术研发人员:杨宇翔葛风龙赵巨峰凡金龙董哲康高明裕
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1