深度强化学习决策的优化方法、装置、计算机设备及介质制造方法及图纸

技术编号：44939110 阅读：16 留言：0更新日期：2025-04-12 01:16

本发明专利技术涉及深度强化学习技术领域，公开了深度强化学习决策的优化方法、装置、计算机设备及介质，方法包括：检测候选网络集群是否处于策略评价状态；若处于策略评价状态，则获取策略评价节点输出的各个训练节点对应的评估结果；根据评估结果对候选网络集群中的训练节点进行优化，直至候选网络集群满足预设终止条件，得到目标动作决策网络；在目标动作决策网络中确定目标行动节点，将目标行动节点对应的动作策略作为目标动作策略。本发明专利技术解决了深度强化学习决策优化方案训练效率低、易出现局部最优和经验遗忘，且多节点方案智能体相关性利用不足、单节点方案不适用多节点训练的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度强化学习领域，具体涉及深度强化学习决策的优化方法、装置、计算机设备及介质。

技术介绍

1、随着人工智能发展，深度强化学习融合深度学习与强化学习的能力，在多领域成果显著，如机器人控制、围棋、街机游戏领域。强化学习用于解决智能体与环境交互中的动作策略学习问题，行动节点-评论节点框架是主流，近端策略优化方法是其中之一。智能体依据环境状态选动作，环境有状态转移和回报反馈，动作策略多为神经网络映射，回报和累积回报对决策优化重要，经验池存交互数据用于训练。

2、然而，深度强化学习决策优化方案在实际应用中有诸多问题：强化学习方法解决动作决策问题时，采样次数和计算时间多，训练效率低，难以满足实际场景需求，还易陷入局部最优、出现经验遗忘问题，稳定性不足会导致策略崩溃，而且实际任务场景复杂，奖励函数与超参数调节工作增加了对稳定性和训练效率的要求。多节点分布式决策优化方案虽能增加经验多样性、提高跳出局部最优能力、增加训练速度，但未充分利用智能体间多种网络的相关性。单节点强化学习方法优化方案主要聚焦于提高探索与利用能力、修正估计偏...

【技术保护点】

1.一种深度强化学习决策的优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在检测候选网络集群是否处于策略评价状态之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述私有经验池以及所述公有经验池对所述原始网络集群进行优化，得到候选网络集群，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取训练好的组间评论节点，包括：

5.根据权利要求1所述的方法，其特征在于，所述检测候选网络集群是否处于策略评价状态，包括：

6.根据权利要求1所述的方法，其特征在于，在获取所述策略评...

【技术特征摘要】

1.一种深度强化学习决策的优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在检测候选网络集群是否处于策略评价状态之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述私有经验池以及所述公有经验池对所述原始网络集群进行优化，得到候选网络集群，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取训练好的组间评论节点，包括：

5.根据权利要求1所述的方法，其特征在于，所述检测候选网络集群是否处于策略评价状态，包括：

6.根据权利...

【专利技术属性】
技术研发人员：张峻伟，魏亭，郎桾侠，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人