一种基于集群节点计算梯度的分布式强化学习方法及装置制造方法及图纸

技术编号:41259968 阅读:18 留言:0更新日期:2024-05-11 09:18
本发明专利技术是关于一种基于集群节点计算梯度的分布式强化学习方法及装置。其中,该方法包括:基于深度强化学习策略网络的训练场景,通过对初始化集群节点进行构建,生成初始化网络参数;基于所述初始化网络参数,通过所述初始化集群节点对预设模型环境进行交互,生成轨迹数据;基于预设策略梯度算法,通过所述轨迹数据对预设初始梯度进行计算,生成更新参数,基于所述更新参数,完成分布式强化学习的训练。本发明专利技术一方面通过对集群节点进行设置,使每个节点都进行参数更新,提高了计算效率和设备利用率,另一方面通过对数据收集完成率阈值的设置,避免了少数特别慢的节点对训练的拖累,大大减少了节点的空闲时间,提升了训练速度。

【技术实现步骤摘要】

本专利技术属于应用人工智能,特别涉及一种基于集群节点计算梯度的分布式强化学习方法及装置


技术介绍

1、强化学习研究的是特定场景中一个或多个主体的序贯决策问题。场景一般称为环境,决策的主体一般称为智能体。决策的内容是智能体要执行的动作,确定动作的方法称为策略。强化学习的过程是一步一步按顺序发生的。在每一步(称为一个step),首先获取环境的状态(第一步获取的是环境的初始状态),状态记作s;之后策略根据状态计算出要执行的动作,智能体执行该动作,动作记作a;然后从环境中获得一个奖励和执行动作后新的状态,奖励记为r,此时完整的一步的工作完成。最后继续进行下一步的操作,直到达到结束条件。把从第一步直到结束的状态,动作,奖励数据连起来就称为一个轨迹(trajectory):

2、τ=(s0,a0,r0,s1,a1,r1,...)

3、深度强化学习指的是智能体的策略是由深度神经网络构成,深度神经网络输入环境的状态,输出智能体要执行的动作。强化学习策略网络的训练指的是在强化学习的执行过程中,收集到一定数量的数据就对网络的参数进行更新,网络参数更新本文档来自技高网...

【技术保护点】

1.一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法包括:

2.如权利要求1所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:

3.如权利要求2所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:

4.如权利要求3所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:

5.如权利要求3所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:

6.如权利要求1所述的一种基于集群节点计算梯度的分布式强化学习方...

【技术特征摘要】

1.一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法包括:

2.如权利要求1所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:

3.如权利要求2所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:

4.如权利要求3所述的一种基于集群节点计算梯度的...

【专利技术属性】
技术研发人员:赵亮鞠鸿彬何晓张鹏翼顾启佳
申请(专利权)人:中国船舶集团有限公司系统工程研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1