【技术实现步骤摘要】
本专利技术涉及自动驾驶,特别是涉及一种基于动作约束的无人系统安全决策方法、系统及介质。
技术介绍
1、深度强化学习是无人系统通过与环境交互并不断试错,能够根据环境的反馈学习到使累计奖励期望最大的策略。但是在实际探索过程中,无人系统会采取许多不安全的动作,如与墙壁发生碰撞或自身方向快速变化等。虽然在仿真环境中,这些行为不会引起严重的后果,但如果是在现实环境中,不安全的动作可能对环境与无人系统均造成不可逆的损伤。因此,无人系统在现实环境中决策时,需要尽量限制和避免这些不安全的动作。
2、在传统的深度强化学习中,解决安全性问题的方法包括:设置负奖励、限制动作空间、将不安全的状态或动作设计为终止状态等。这些方法虽然能够避免无人系统做出某些不安全的动作,但是很难彻底解决安全性问题。例如:当负奖励设置过小时,无人系统会为了完成任务而忽视惩罚;当负奖励设置过大时,无人系统会为了避免受到惩罚而采取极为保守的策略;当限制动作空间时,可能会降低无人系统的决策能力,导致不能收敛到最优解。因此,传统的深度强化学习方法并不能很好的实现任务成功率和安全
...【技术保护点】
1.一种基于动作约束的无人系统安全决策方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,获取历史训练样本,具体包括:
3.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,利用权重更新公式对每个所述辅助价值评估网络进行训练优化,具体包括:
4.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,所述策略梯度算法的计算公式为:
5.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,所述损失函数为:
6.根
...【技术特征摘要】
1.一种基于动作约束的无人系统安全决策方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,获取历史训练样本,具体包括:
3.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,利用权重更新公式对每个所述辅助价值评估网络进行训练优化,具体包括:
4.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,所述策略梯度算法的计算公式为:
5.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,所述损失函数为:
6.根据...
【专利技术属性】
技术研发人员:骆祥峰,谢少荣,王欣芝,李洋,李玉峰,霍宏斌,
申请(专利权)人:上海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。