当前位置: 首页 > 专利查询>上海大学专利>正文

一种无人系统稳定决策方法、产品、介质及设备技术方案

技术编号:41848688 阅读:25 留言:0更新日期:2024-06-27 18:26
本发明专利技术公开一种无人系统稳定决策方法、产品、介质及设备,涉及强化学习领域,方法包括:初始化环境、经验池、各网络参数;将无人系统与环境交互产生的数据存储于经验池;计算集成策略价值网络损失并更新其参数;将该网络作为教师网络,计算学生网络综合损失并更新其参数;根据计算的累计误差评分对集成策略价值网络进行替换;根据更新后的集成策略价值网络,计算策略网络损失并更新其参数;若更新迭代次数未达到预设阈值,则返回步骤“将无人系统与环境交互产生的数据存储于经验池”;反之,则保存策略网络的参数,得到用于决策的策略网络。本发明专利技术能降低无人系统策略从虚拟到现实世界迁移过程中,数据分布变化引起的决策模型稳定性下降的问题。

【技术实现步骤摘要】

本专利技术涉及强化学习,特别是涉及一种无人系统稳定决策方法、产品、介质及设备


技术介绍

1、深度强化学习的稳定性是指强化学习算法在同一任务中,经过训练后稳定收敛到最优策略的能力。强化学习算法需要无人系统与环境不断交互,来不断优化自身策略,最终寻找到当前任务的最优策略。而在这一过程中,即使环境保持不变,强化学习算法训练过程中无人系统自身策略的不断迭代,也会导致不同时间段的策略采集到的数据分布不同,也会引起模型的性能下降。如何降低数据漂移(数据分布随着时间和空间变化的现象)对强化学习模型的影响目前仍没有完善的解决方案。

2、数据漂移会使异策略(off-policy)的深度强化学习算法在值函数估计的过程中存在对q值的过估计现象,导致其无法收敛。针对这个问题,double dqn将最优动作的选择和目标q值的计算解耦,通过不同的两个网络完成,解决了离散动作空间下,值函数的过估计问题。双延迟深度确定性策略梯度(twin delayed deep deterministic policygradient,td3)继承了double dqn的思路,设计了两个本文档来自技高网...

【技术保护点】

1.一种无人系统稳定决策方法,其特征在于,包括:

2.根据权利要求1所述的无人系统稳定决策方法,其特征在于,从所述经验池中随机采样一批训练数据,计算所述集成策略价值网络的损失函数,并更新所述集成策略价值网络的参数,具体包括:

3.根据权利要求1所述的无人系统稳定决策方法,其特征在于,将所述集成策略价值网络作为知识蒸馏的教师网络,计算知识蒸馏过程中所述学生价值网络的综合损失,并更新所述学生价值网络的参数,具体包括:

4.根据权利要求1所述的无人系统稳定决策方法,其特征在于,计算所述集成策略价值网络和所述学生价值网络的累计误差评分,具体包括:

...

【技术特征摘要】

1.一种无人系统稳定决策方法,其特征在于,包括:

2.根据权利要求1所述的无人系统稳定决策方法,其特征在于,从所述经验池中随机采样一批训练数据,计算所述集成策略价值网络的损失函数,并更新所述集成策略价值网络的参数,具体包括:

3.根据权利要求1所述的无人系统稳定决策方法,其特征在于,将所述集成策略价值网络作为知识蒸馏的教师网络,计算知识蒸馏过程中所述学生价值网络的综合损失,并更新所述学生价值网络的参数,具体包括:

4.根据权利要求1所述的无人系统稳定决策方法,其特征在于,计算所述集成策略价值网络和所述学生价值网络的累计误差评分,具体包括:

5.根据权利要求4所述的无人系统稳定决策方法,其特征在于,根据所述集成策略价值网络和所述学生价值网络的累计误差评分,对所述集成策略价值网络进...

【专利技术属性】
技术研发人员:谢少荣李洋骆祥峰王欣芝霍宏斌李玉峰王涛
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1