【技术实现步骤摘要】
本专利技术涉及强化学习,特别是涉及一种无人系统稳定决策方法、产品、介质及设备。
技术介绍
1、深度强化学习的稳定性是指强化学习算法在同一任务中,经过训练后稳定收敛到最优策略的能力。强化学习算法需要无人系统与环境不断交互,来不断优化自身策略,最终寻找到当前任务的最优策略。而在这一过程中,即使环境保持不变,强化学习算法训练过程中无人系统自身策略的不断迭代,也会导致不同时间段的策略采集到的数据分布不同,也会引起模型的性能下降。如何降低数据漂移(数据分布随着时间和空间变化的现象)对强化学习模型的影响目前仍没有完善的解决方案。
2、数据漂移会使异策略(off-policy)的深度强化学习算法在值函数估计的过程中存在对q值的过估计现象,导致其无法收敛。针对这个问题,double dqn将最优动作的选择和目标q值的计算解耦,通过不同的两个网络完成,解决了离散动作空间下,值函数的过估计问题。双延迟深度确定性策略梯度(twin delayed deep deterministic policygradient,td3)继承了double dq
...【技术保护点】
1.一种无人系统稳定决策方法,其特征在于,包括:
2.根据权利要求1所述的无人系统稳定决策方法,其特征在于,从所述经验池中随机采样一批训练数据,计算所述集成策略价值网络的损失函数,并更新所述集成策略价值网络的参数,具体包括:
3.根据权利要求1所述的无人系统稳定决策方法,其特征在于,将所述集成策略价值网络作为知识蒸馏的教师网络,计算知识蒸馏过程中所述学生价值网络的综合损失,并更新所述学生价值网络的参数,具体包括:
4.根据权利要求1所述的无人系统稳定决策方法,其特征在于,计算所述集成策略价值网络和所述学生价值网络的累计误差评分,具体
...
【技术特征摘要】
1.一种无人系统稳定决策方法,其特征在于,包括:
2.根据权利要求1所述的无人系统稳定决策方法,其特征在于,从所述经验池中随机采样一批训练数据,计算所述集成策略价值网络的损失函数,并更新所述集成策略价值网络的参数,具体包括:
3.根据权利要求1所述的无人系统稳定决策方法,其特征在于,将所述集成策略价值网络作为知识蒸馏的教师网络,计算知识蒸馏过程中所述学生价值网络的综合损失,并更新所述学生价值网络的参数,具体包括:
4.根据权利要求1所述的无人系统稳定决策方法,其特征在于,计算所述集成策略价值网络和所述学生价值网络的累计误差评分,具体包括:
5.根据权利要求4所述的无人系统稳定决策方法,其特征在于,根据所述集成策略价值网络和所述学生价值网络的累计误差评分,对所述集成策略价值网络进...
【专利技术属性】
技术研发人员:谢少荣,李洋,骆祥峰,王欣芝,霍宏斌,李玉峰,王涛,
申请(专利权)人:上海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。