【技术实现步骤摘要】
本专利技术属于应用人工智能,特别涉及一种基于集群节点计算梯度的分布式强化学习方法及装置。
技术介绍
1、强化学习研究的是特定场景中一个或多个主体的序贯决策问题。场景一般称为环境,决策的主体一般称为智能体。决策的内容是智能体要执行的动作,确定动作的方法称为策略。强化学习的过程是一步一步按顺序发生的。在每一步(称为一个step),首先获取环境的状态(第一步获取的是环境的初始状态),状态记作s;之后策略根据状态计算出要执行的动作,智能体执行该动作,动作记作a;然后从环境中获得一个奖励和执行动作后新的状态,奖励记为r,此时完整的一步的工作完成。最后继续进行下一步的操作,直到达到结束条件。把从第一步直到结束的状态,动作,奖励数据连起来就称为一个轨迹(trajectory):
2、τ=(s0,a0,r0,s1,a1,r1,...)
3、深度强化学习指的是智能体的策略是由深度神经网络构成,深度神经网络输入环境的状态,输出智能体要执行的动作。强化学习策略网络的训练指的是在强化学习的执行过程中,收集到一定数量的数据就对网络的参数进
...【技术保护点】
1.一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:
3.如权利要求2所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:
4.如权利要求3所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:
5.如权利要求3所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:
6.如权利要求1所述的一种基于集群节点计算梯
...【技术特征摘要】
1.一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:
3.如权利要求2所述的一种基于集群节点计算梯度的分布式强化学习方法,其特征在于,所述方法还包括:
4.如权利要求3所述的一种基于集群节点计算梯度的...
【专利技术属性】
技术研发人员:赵亮,鞠鸿彬,何晓,张鹏翼,顾启佳,
申请(专利权)人:中国船舶集团有限公司系统工程研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。