【技术实现步骤摘要】
本专利技术涉及深度强化学习领域,具体涉及深度强化学习决策的优化方法、装置、计算机设备及介质。
技术介绍
1、随着人工智能发展,深度强化学习融合深度学习与强化学习的能力,在多领域成果显著,如机器人控制、围棋、街机游戏领域。强化学习用于解决智能体与环境交互中的动作策略学习问题,行动节点-评论节点框架是主流,近端策略优化方法是其中之一。智能体依据环境状态选动作,环境有状态转移和回报反馈,动作策略多为神经网络映射,回报和累积回报对决策优化重要,经验池存交互数据用于训练。
2、然而,深度强化学习决策优化方案在实际应用中有诸多问题:强化学习方法解决动作决策问题时,采样次数和计算时间多,训练效率低,难以满足实际场景需求,还易陷入局部最优、出现经验遗忘问题,稳定性不足会导致策略崩溃,而且实际任务场景复杂,奖励函数与超参数调节工作增加了对稳定性和训练效率的要求。多节点分布式决策优化方案虽能增加经验多样性、提高跳出局部最优能力、增加训练速度,但未充分利用智能体间多种网络的相关性。单节点强化学习方法优化方案主要聚焦于提高探索与利用能力、修正估计偏
...【技术保护点】
1.一种深度强化学习决策的优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在检测候选网络集群是否处于策略评价状态之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述私有经验池以及所述公有经验池对所述原始网络集群进行优化,得到候选网络集群,包括:
4.根据权利要求3所述的方法,其特征在于,所述获取训练好的组间评论节点,包括:
5.根据权利要求1所述的方法,其特征在于,所述检测候选网络集群是否处于策略评价状态,包括:
6.根据权利要求1所述的方法,其特征在
...【技术特征摘要】
1.一种深度强化学习决策的优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在检测候选网络集群是否处于策略评价状态之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述私有经验池以及所述公有经验池对所述原始网络集群进行优化,得到候选网络集群,包括:
4.根据权利要求3所述的方法,其特征在于,所述获取训练好的组间评论节点,包括:
5.根据权利要求1所述的方法,其特征在于,所述检测候选网络集群是否处于策略评价状态,包括:
6.根据权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。