【技术实现步骤摘要】
本专利技术属于强化学习与自动驾驶领域,特别涉及一种基于风险估计的强化学习自动驾驶安全可解释决策方法。
技术介绍
1、随着人工智能技术的发展,强化学习作为一种能够在高维环境中学习复杂策略的方法,已被广泛应用于自动驾驶领域。强化学习通过智能体执行动作并观察结果(即奖励或惩罚)来学习一种策略,从而获得最大化的长期累计奖励。深度强化学习结合了深度学习的强大特征提取能力和强化学习的决策制定机制,使得智能体可以在高维复杂环境中学习出优秀的行为策略。近年来,基于强化学习的自动驾驶策略研究发展迅速,使得无人车辆可以在各种复杂交通场景下完成驾驶任务。然而,强化学习的探索过程具有不确定性,很可能会导致不安全行为的产生,这在自动驾驶领域会造成灾难性的后果。因此即使强化学习在自动驾驶方面有高效的表现,缺乏安全性仍然限制了在安全敏感领域的应用。同时,包括强化学习在内的机器学习算法决策过程往往是不透明的,人们通常无法理解智能体的决策过程,导致自动驾驶系统并不可靠,同样限制了其在现实世界的应用。因此研究既具有可解释性又能够保证安全性的自动驾驶方法具有重大意义和发展前
2本文档来自技高网...
【技术保护点】
1.一种基于风险估计的强化学习自动驾驶安全可解释决策方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于风险估计的强化学习自动驾驶安全可解释决策方法,其特征在于,智能体车辆接受到的状态空间包括自我车辆状态的观察、周围其他交通参与者信息、当前道路航路点集合以及可用的车道切换集合;其中,智能体车辆的状态定义为向量[x,y,v,θ,vtarget],其中x,y表示智能体车辆坐标,v表示实际行驶速度,θ表示偏航角度,vtarget表示期望的目标速度;非智能体车辆状态定义为向量其中x′,y′表示相对于智能体车辆的坐标,v′表示当前行驶速度,表示相对于智
...【技术特征摘要】
1.一种基于风险估计的强化学习自动驾驶安全可解释决策方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于风险估计的强化学习自动驾驶安全可解释决策方法,其特征在于,智能体车辆接受到的状态空间包括自我车辆状态的观察、周围其他交通参与者信息、当前道路航路点集合以及可用的车道切换集合;其中,智能体车辆的状态定义为向量[x,y,v,θ,vtarget],其中x,y表示智能体车辆坐标,v表示实际行驶速度,θ表示偏航角度,vtarget表示期望的目标速度;非智能体车辆状态定义为向量其中x′,...
【专利技术属性】
技术研发人员:葛宏伟,苏子威,何鑫,候亚庆,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。