【技术实现步骤摘要】
基于异步或同步的深度强化学习分布式训练方法及系统
本专利技术涉及人工智能
,尤其涉及一种基于异步或同步的深度强化学习分布式训练方法及系统。
技术介绍
强化学习任务通常使用马尔可夫决策过程(MarkovDecisionProcess,简称MDP)来描述,具体而言:机器处在一个环境中,每个状态为机器对当前环境的感知;机器只能通过动作来影响环境,当机器执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言,强化学习主要包含四个要素:状态、动作、转移概率以及奖赏函数。传统的强化学习局限于动作空间和样本空间都很小,且一般是离散的情境下。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间。当输入数据为图像,声音时,往往具有很高维度,传统的强化学习很难处理,深度强化学习就是把深度学习对于的高维输入与强化学习结合起来。深度强化学习DRL是深度学习和强化学习的结合。这两种学习方式在很大程度上是正交问题,二者结合得很好。强化学习定义了优化的目标, ...
【技术保护点】
1.一种基于异步或同步的深度强化学习分布式训练方法,其特征在于,包括:/n同步启动多个CPU执行同一程序,每个CPU初始化为相同的决策函数;/n实时收集每个CPU三元组数据到GPU;/n当三元组数据收集时间达到设定时长T,则GPU计算更新策略网络参数,每个CPU基于更新的策略网络参数更新所述决策函数。/n
【技术特征摘要】
1.一种基于异步或同步的深度强化学习分布式训练方法,其特征在于,包括:
同步启动多个CPU执行同一程序,每个CPU初始化为相同的决策函数;
实时收集每个CPU三元组数据到GPU;
当三元组数据收集时间达到设定时长T,则GPU计算更新策略网络参数,每个CPU基于更新的策略网络参数更新所述决策函数。
2.根据权利要求1所述的基于异步或同步的深度强化学习分布式训练方法,其特征在于,所述三元组数据为(st,at,rt),t表示时刻,st,at,rt分别表示t时刻的状态、决策以及回报。
3.根据权利要求1或2所述的基于异步或同步的深度强化学习分布式训练方法,其特征在于,GPU计算更新策略网络参数θ包括:
计算:
计算:
其中γ为缩放因子,θv为价值网络参数,V(sT;θv)为价值网络输出。
4.根据权利要求1或2所述的基于异步或同步的深度强化学习分布式训练方法,其特征在于,每个CPU独立地和环境进行交互得到经验数据,各CPU线程之间相互独立。
5.根据权利要求1或2所述的基于异步或同步的深度强化学习分布式训练方法,其特征在于,采用单GPU同步计算更新策略网络参数并更新到服务器或多个GPU异步计算更新策略网络参数并更新到服务器。
6.一种基于异步或同步的深度强化学习...
【专利技术属性】
技术研发人员:李明强,唐思琦,陈思,高放,黄彬城,
申请(专利权)人:中国电子科技集团公司信息科学研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。