基于分布式设计的大规模强化学习训练框架系统技术方案

技术编号:34461886 阅读:36 留言:0更新日期:2022-08-06 17:26
本发明专利技术公开了一种基于分布式设计的大规模强化学习训练框架系统,可以通过分布式地运行多个行动者模块,利用集群大量的CPU计算资源,大规模、高并发地产生训练数据,突破了单机训练的物理限制,大幅提升了强化学习中的数据产生效率。通过支持多个学习者模块加入训练,本框架更是进一步地提高了训练效率。同时,为了方便用户使用,本训练框架系统进行了清晰合理的抽象,为强化学习中的所有过程设计了接口,使得用户无需知悉训练中所涉及到的大部分实现细节。因此,通过本发明专利技术设计的大规模强化学习分布式训练框架系统,强化学习研究者可以更轻松地进行大规模强化学习,充分利用大规模集群的计算资源,缩短了训练智能体所需的时间。间。间。

【技术实现步骤摘要】
基于分布式设计的大规模强化学习训练框架系统


[0001]本专利技术涉及人工智能
,尤其涉及一种基于分布式设计的大规模强化学习训练框架系统。

技术介绍

[0002]近年来,在人工智能领域中愈来愈多的研究者转向研究强化学习。2013年,DeepMind提出的DQN模型,首次将深度神经网络的与传统的Q

learning强化学习算法相结合,在Atari游戏上超越了人类专家的水平。自此,人们对强化学习的研究进入了深度强化学习时代。2016至2017年,DeepMind先后开发的AlphaGo、AlphaGo Zero围棋AI开创性地将深度强化学习与蒙特卡洛树搜索结合,多次战胜人类顶级职业棋手,标志着深度强化学习在复杂问题下的重大突破。之后的两年里,深度强化学习更是被用于攻克当今最难的视频游戏Dota 2和星际争霸2,均以压倒性优势战胜人类顶级玩家,成功站上游戏AI之巅。
[0003]强化学习是一门解决序列决策问题的学科,而强化学习智能体则是通过相关算法训练得到的,可用于解决此类问题的AI。例如,我们可以通过强化学习算法训练出一个精通游戏的智能体;也可以通过类似的方法,训练出一个能够帮物流公司调度货物的机器人。与此同时,对于强化学习智能体所做的每一步决策,此类问题需要有一个合适的评判机制加以评判——当智能体做得对时,我们要“奖励”;当智能体的决策不好,我们要“惩罚”。因此,序列性、可评判构成了强化学习所研究的决策问题的两个重要要素。另一方面,此类问题可被形式化地定义为马尔可夫决策过程问题,即MDP问题。
[0004]具体地,MDP问题可用语言表述为:智能体对于环境当前所处状态s
t
,以某种策略π做出一个合适的动作a
t
,环境进而根据智能体做出的动作推演到下一刻所处的状态s
t+1
,并返回给智能体一个回报值r
t+1
,至此完成一轮迭代。智能体与环境不断进行上述交互,并累积每一时刻得到的回报值r,而强化学习的目标就是最大化决策过程中智能体的累积回报值∑
t
r
t
。从数据的获取来源方式来看,大部分机器学习算法的数据分布是与模型好坏无关的,并且相关训练数据也是通过一系列的离线方式采集。而在强化学习问题中,由于训练数据是通过上述交互的形式产生的,模型的训练结果也会反过来影响数据的分布,因此数据总是需要模型与环境交互在线采集得到。
[0005]在采集上述数据的同时,研究者会使用这些数据训练特定的模型。在进入了深度学习时代之后,这些模型就从简单的线性模型变成了基于深度神经网络的模型。训练得到的新模型又会被赋予智能体,让智能体能够做出更好的决策,以此通过不断与环境交互,采集到更好的数据。由此完成了强化学习的一整套训练迭代。
[0006]目前方案主要存在以下两类技术问题:
[0007]技术问题1:当前的深度强化学习算法受困于数据利用率低的问题,需要智能体采集大量的训练数据,才能训练出较好的模型。如在Atari游戏中,训练DQN算法需要与环境交互百万、甚至千万次,训练时间长达几天。而对于更复杂的游戏Dota 2,AI更是要花费相当于人类45000年的时间进行自博弈强化学习。对比之下,人类只需要几周便可通过学习掌握
一个游戏。低下的数据利用效率提高了深度强化学习的训练成本,更限制了将其应用到复杂任务、现实场景中的可行性。
[0008]技术问题2:由于环境推演的程序难以使用GPU进行计算加速,当前的大部分模拟环境均运行在CPU上,而单机有限的CPU资源直接限制了单机强化学习算法的单位数据采集量,增加了单机训练的时间成本。
[0009]鉴于此,有必要研究一套新的训练框架,以突破单机训练的物理限制,从而提高数据的采集效率和利用效率。

技术实现思路

[0010]本专利技术的目的是提供一种基于分布式设计的大规模强化学习训练框架系统,可以提高数据的采集效率和利用效率。
[0011]本专利技术的目的是通过以下技术方案实现的:
[0012]一种基于分布式设计的大规模强化学习训练框架系统,包括:布设在集群内多台计算机上且分布式并行运行的N个行动者模块与M个学习者模块,以及训练数据集中存储模块,行动者模块与学习者模块在运行时分别占用所属计算机中的不同计算资源,N与M均为设定的正整数;其中:
[0013]每一行动者模块,用于通过智能体当前包含的网络模型,从当前应用场景中获得训练数据;
[0014]训练数据集中存储模块,用于存储训练数据;
[0015]每一学习者模块,用于从所述训练数据集中存储模块中提取训练数据进行网络模型的训练,并输出训练得到的网络模型参数更新所述行动者模块中智能体包含的网络模型。
[0016]由上述本专利技术提供的技术方案可以看出,本专利技术提供了一种新的分布式强化学习训练框架,通过对分布式集群资源的高效利用,提高强化学习过程的训练效率,实现大规模、高并发的强化学习训练,缩短研究者训练强化学习智能体所需的时间,同时满足用户使用的易用性。
附图说明
[0017]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0018]图1为本专利技术实施例提供的一种基于分布式设计的大规模强化学习训练框架系统的示意图;
[0019]图2为本专利技术实施例提供的单个行动者模块的示意图;
[0020]图3为本专利技术实施例提供的强化学习智能体与环境交互的示意图
[0021]图4为本专利技术实施例提供的单个学习者模块的示意图;
[0022]图5为本专利技术实施例提供的请求回复模式的示意图;
[0023]图6为本专利技术实施例提供的发布者

订阅者模式的示意图。
具体实施方式
[0024]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0025]首先对本文中可能使用的术语进行如下说明:
[0026]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0027]下面对本专利技术所提供的一种基于分布式设计的大规模强化学习训练框架系统进行详细描述。本专利技术实施例中未作详细描述的内容属于本领域专本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式设计的大规模强化学习训练框架系统,其特征在于,包括:布设在集群内多台计算机上且分布式并行运行的N个行动者模块与M个学习者模块,以及训练数据集中存储模块,行动者模块与学习者模块在运行时分别占用所属计算机中的不同计算资源,N与M均为设定的正整数;其中:每一行动者模块,用于通过智能体当前包含的网络模型,从当前应用场景中获得训练数据;训练数据集中存储模块,用于存储训练数据;每一学习者模块,用于从所述训练数据集中存储模块中提取训练数据进行网络模型的训练,并输出训练得到的网络模型参数更新所述行动者模块中智能体包含的网络模型。2.根据权利要求1所述的一种基于分布式设计的大规模强化学习训练框架系统,其特征在于,所述行动者模块与学习者模块在运行时分别占用所属计算机中的不同计算资源包括:每一行动者模块占用所在计算机中的一个CPU核心,作为一个进程;每一学习者模块占用所属计算机中的一张GPU卡。3.根据权利要求1或2所述的一种基于分布式设计的大规模强化学习训练框架系统,其特征在于,每一行动者模块包括:网络模型推理加速模块、并行环境推演模块与网络模型发现模块;其中:所述网络模型推理加速模块中包含n个智能体副本,所述并行环境推演模块中包含n个环境副本,n个环境副本均为应用场景;所述网络模型发现模块,用于搜寻是否存在训练后的网络模型,若存在,则将所有智能体副本中的网络模型更为新训练后的网络模型;其中,n为设定的正整数;通过所述网络模型推理加速模块与并行环境推演模块的交互,并通过设定的预处理方式,获得训练数据。4.根据权利要求3所述的一种基于分布式设计的大规模强化学习训练框架系统,其特征在于,通过所述网络模型推理加速模块与并行环境推演模块的交互,并通过设定的预处理方式,获得训练数据的步骤包括:通过n个智能体副本与n个环境副本一对一的交互,获得n个环境副本在t时刻的环境状态(s1,s2,

,s
n
),以及n个智能体副本当前包含的网络模型各自根据相应环境状态产生的决策信息(a1,a2,

,a
n
);其中,s
i
表示第i个环境副本在t时刻的环境状态,a
i
表示第i个智能体副本当前包含的网络模型产生的决策信息,i=1,2...

【专利技术属性】
技术研发人员:李厚强周文罡赵天宇
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1