一种基于风险估计的强化学习自动驾驶安全可解释决策方法技术

技术编号:42204076 阅读:23 留言:0更新日期:2024-07-30 18:49
本发明专利技术属于强化学习与自动驾驶领域,涉及一种基于风险估计的强化学习自动驾驶安全可解释决策方法。本发明专利技术包括以下步骤:基于Gym库搭建仿真环境并设置状态和动作空间;根据约束马尔可夫决策过程建模以处理安全约束;设置奖励函数;构建独立的风险估计模块和预期奖励估计模块;使用一个动态权衡参数结合两个网络以选择符合安全约束的最优动作;对联合后的决策网络进行训练,得到训练好的安全自动驾驶决策网络;对驾驶过程中某一状态下的环境特征计算风险显著性度量,实现风险可解释;在验证环境中进行应用。相较于现有方法,本发明专利技术从风险角度解决了传统强化学习自动驾驶方法不可解释的问题,利用动态权衡参数实现了安全最优动作的选择。

【技术实现步骤摘要】

本专利技术属于强化学习与自动驾驶领域,特别涉及一种基于风险估计的强化学习自动驾驶安全可解释决策方法


技术介绍

1、随着人工智能技术的发展,强化学习作为一种能够在高维环境中学习复杂策略的方法,已被广泛应用于自动驾驶领域。强化学习通过智能体执行动作并观察结果(即奖励或惩罚)来学习一种策略,从而获得最大化的长期累计奖励。深度强化学习结合了深度学习的强大特征提取能力和强化学习的决策制定机制,使得智能体可以在高维复杂环境中学习出优秀的行为策略。近年来,基于强化学习的自动驾驶策略研究发展迅速,使得无人车辆可以在各种复杂交通场景下完成驾驶任务。然而,强化学习的探索过程具有不确定性,很可能会导致不安全行为的产生,这在自动驾驶领域会造成灾难性的后果。因此即使强化学习在自动驾驶方面有高效的表现,缺乏安全性仍然限制了在安全敏感领域的应用。同时,包括强化学习在内的机器学习算法决策过程往往是不透明的,人们通常无法理解智能体的决策过程,导致自动驾驶系统并不可靠,同样限制了其在现实世界的应用。因此研究既具有可解释性又能够保证安全性的自动驾驶方法具有重大意义和发展前景。

2本文档来自技高网...

【技术保护点】

1.一种基于风险估计的强化学习自动驾驶安全可解释决策方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于风险估计的强化学习自动驾驶安全可解释决策方法,其特征在于,智能体车辆接受到的状态空间包括自我车辆状态的观察、周围其他交通参与者信息、当前道路航路点集合以及可用的车道切换集合;其中,智能体车辆的状态定义为向量[x,y,v,θ,vtarget],其中x,y表示智能体车辆坐标,v表示实际行驶速度,θ表示偏航角度,vtarget表示期望的目标速度;非智能体车辆状态定义为向量其中x′,y′表示相对于智能体车辆的坐标,v′表示当前行驶速度,表示相对于智能体车辆的角度,d表...

【技术特征摘要】

1.一种基于风险估计的强化学习自动驾驶安全可解释决策方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于风险估计的强化学习自动驾驶安全可解释决策方法,其特征在于,智能体车辆接受到的状态空间包括自我车辆状态的观察、周围其他交通参与者信息、当前道路航路点集合以及可用的车道切换集合;其中,智能体车辆的状态定义为向量[x,y,v,θ,vtarget],其中x,y表示智能体车辆坐标,v表示实际行驶速度,θ表示偏航角度,vtarget表示期望的目标速度;非智能体车辆状态定义为向量其中x′,...

【专利技术属性】
技术研发人员:葛宏伟苏子威何鑫候亚庆
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1