一种面向自动驾驶决策的环境模拟与强化学习系统技术方案

技术编号:41395662 阅读:23 留言:0更新日期:2024-05-20 19:19
本公开提供一种面向自动驾驶决策的环境模拟与强化学习系统,包括:交互数据采集模块,将车辆当前时刻需要采取的动作作为输入与仿真环境进行交互,输出四元组信息;环境模拟器学习模块,将当前时刻环境的视觉观测对应的视觉图像和车辆当前时刻需要采取的动作作为输入,输出重建的视觉图像和预测的模拟环境的奖励值;行为策略学习模块,将经过解耦处理获取的可控动态和不可控动态作为输入,输出车辆当前时刻的执行动作。通过本公开,将复杂视觉动态信息解耦处理为可控动态和不可控动态,同时建模两者间的依赖关系,学习更精确的环境模拟器,并对未来不可控动态进行预测,构建强化学习算法,在决策前提前预判未来环境的变化趋势,提高决策的准确性。

【技术实现步骤摘要】

本公开涉及图像处理与强化学习,具体地,涉及一种面向自动驾驶决策的环境模拟与强化学习系统


技术介绍

1、随着自动驾驶技术的迅速发展,为了确保自动驾驶车辆的安全性和可靠性,高效且准确的决策系统具有重要作用。在传统的自动驾驶系统中,通常采用预先定义的规则和基于规则的方法进行决策。然而,这种方法存在一些限制,其难以应对各种复杂和不确定的交通环境。

2、强化学习是一种机器学习方法,通过智能体与环境的交互来学习最优的行为策略。在自动驾驶决策中,智能体被看作为自动驾驶车辆,环境则包括道路、其他车辆、行人等要素。强化学习系统通过自动驾驶车辆与环境进行反复交互,根据环境的反馈来调整自动驾驶车辆的决策策略,实现更好的驾驶性能。

3、为训练自动驾驶车辆的决策能力,需要一个准确的环境模拟器。环境模拟器可以模拟各种交通场景和环境变化,例如不同类型的道路、交通信号灯、其他车辆和行人的行为。通过模拟这些场景,为自动驾驶车辆提供充足的训练数据,提高样本效率并帮助其学习在各种复杂情况下做出正确的决策。通过学习智能体与环境交互的时空因果关系构建现实世界的模拟器,该研本文档来自技高网...

【技术保护点】

1.一种面向自动驾驶决策的环境模拟与强化学习系统,其特征在于,包括:

2.根据权利要求1所述的面向自动驾驶决策的环境模拟与强化学习系统,其特征在于,所述交互数据采集模块根据所述车辆当前时刻需要采取的动作,确定所述车辆的运动方向和运动速度,并将一个预设时间步内所述车辆的行驶距离和碰撞损失的差值作为所述车辆执行所述当前时刻需要采取的动作的奖励值。

3.根据权利要求1所述的面向自动驾驶决策的环境模拟与强化学习系统,其特征在于,所述环境模拟器学习模块包括:

4.根据权利要求3所述的面向自动驾驶决策的环境模拟与强化学习系统,其特征在于,所述动作无关特征提取模块、...

【技术特征摘要】

1.一种面向自动驾驶决策的环境模拟与强化学习系统,其特征在于,包括:

2.根据权利要求1所述的面向自动驾驶决策的环境模拟与强化学习系统,其特征在于,所述交互数据采集模块根据所述车辆当前时刻需要采取的动作,确定所述车辆的运动方向和运动速度,并将一个预设时间步内所述车辆的行驶距离和碰撞损失的差值作为所述车辆执行所述当前时刻需要采取的动作的奖励值。

3.根据权利要求1所述的面向自动驾驶决策的环境模拟与强化学习系统,其特征在于,所述环境模拟器学习模块包括:

4.根据权利要求3所述的面向自动驾驶决策的环境模拟与强化学习系统,其特征在于,所述动作无关特征提取模块、所述动作相关特征提取模块、所述静态特征提取模块共享所述参数共享编码器模块的网络参数。

5.根据权利要求3所述的面向自动驾驶决策的环境模拟与强化学习系统,其特征在于,所述动作无关特征提取模块包括第一编码器、第一门控循环单元、第一解码器,所述第一门控循环单元用于提取第一先验特征,所述第一编码器用于提取第一后验特征,所述第一解码器用于根据所述第一后验特征重建与动作无关的所述不可控动态特征对应的视觉图像和对应的第一掩码。

6.根据权利要求3所述的面向自动...

【专利技术属性】
技术研发人员:杨小康王韫博潘敏婷朱祥明
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1