当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于动作约束的无人系统安全决策方法、系统及介质技术方案

技术编号:42574043 阅读:16 留言:0更新日期:2024-08-29 00:39
本发明专利技术公开一种基于动作约束的无人系统安全决策方法、系统及介质,涉及自动驾驶领域,方法包括:基于演员‑评论家算法设计无人系统的策略网络和多维价值网络;多维价值网络包括主干网络和多个辅助价值评估网络;一个辅助价值评估网络对应一个安全动作约束;策略网络用于根据无人系统当前的状态确定无人系统当前的策略动作;辅助价值评估网络用于判断无人系统当前的策略动作是否满足对应的安全动作约束;基于历史训练样本对策略网络和多维价值网络进行训练优化;将训练优化后的策略网络和多维价值网络确定为安全决策模型;获取无人系统当前的状态并输入安全决策模型,得到最优策略。本发明专利技术使无人系统在成功完成任务的同时能够做出安全决策。

【技术实现步骤摘要】

本专利技术涉及自动驾驶,特别是涉及一种基于动作约束的无人系统安全决策方法、系统及介质


技术介绍

1、深度强化学习是无人系统通过与环境交互并不断试错,能够根据环境的反馈学习到使累计奖励期望最大的策略。但是在实际探索过程中,无人系统会采取许多不安全的动作,如与墙壁发生碰撞或自身方向快速变化等。虽然在仿真环境中,这些行为不会引起严重的后果,但如果是在现实环境中,不安全的动作可能对环境与无人系统均造成不可逆的损伤。因此,无人系统在现实环境中决策时,需要尽量限制和避免这些不安全的动作。

2、在传统的深度强化学习中,解决安全性问题的方法包括:设置负奖励、限制动作空间、将不安全的状态或动作设计为终止状态等。这些方法虽然能够避免无人系统做出某些不安全的动作,但是很难彻底解决安全性问题。例如:当负奖励设置过小时,无人系统会为了完成任务而忽视惩罚;当负奖励设置过大时,无人系统会为了避免受到惩罚而采取极为保守的策略;当限制动作空间时,可能会降低无人系统的决策能力,导致不能收敛到最优解。因此,传统的深度强化学习方法并不能很好的实现任务成功率和安全性之间的平衡。...

【技术保护点】

1.一种基于动作约束的无人系统安全决策方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,获取历史训练样本,具体包括:

3.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,利用权重更新公式对每个所述辅助价值评估网络进行训练优化,具体包括:

4.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,所述策略梯度算法的计算公式为:

5.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,所述损失函数为:

6.根据权利要求1所述的基...

【技术特征摘要】

1.一种基于动作约束的无人系统安全决策方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,获取历史训练样本,具体包括:

3.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,利用权重更新公式对每个所述辅助价值评估网络进行训练优化,具体包括:

4.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,所述策略梯度算法的计算公式为:

5.根据权利要求1所述的基于动作约束的无人系统安全决策方法,其特征在于,所述损失函数为:

6.根据...

【专利技术属性】
技术研发人员:骆祥峰谢少荣王欣芝李洋李玉峰霍宏斌
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1