基于分布式设计的大规模强化学习训练框架系统技术方案

技术编号：34461886 阅读：36 留言：0更新日期：2022-08-06 17:26

本发明专利技术公开了一种基于分布式设计的大规模强化学习训练框架系统，可以通过分布式地运行多个行动者模块，利用集群大量的CPU计算资源，大规模、高并发地产生训练数据，突破了单机训练的物理限制，大幅提升了强化学习中的数据产生效率。通过支持多个学习者模块加入训练，本框架更是进一步地提高了训练效率。同时，为了方便用户使用，本训练框架系统进行了清晰合理的抽象，为强化学习中的所有过程设计了接口，使得用户无需知悉训练中所涉及到的大部分实现细节。因此，通过本发明专利技术设计的大规模强化学习分布式训练框架系统，强化学习研究者可以更轻松地进行大规模强化学习，充分利用大规模集群的计算资源，缩短了训练智能体所需的时间。间。间。

全部详细技术资料下载

【技术实现步骤摘要】
基于分布式设计的大规模强化学习训练框架系统

[0001]本专利技术涉及人工智能
，尤其涉及一种基于分布式设计的大规模强化学习训练框架系统。

技术介绍

[0002]近年来，在人工智能领域中愈来愈多的研究者转向研究强化学习。2013年，DeepMind提出的DQN模型，首次将深度神经网络的与传统的Q
‑
learning强化学习算法相结合，在Atari游戏上超越了人类专家的水平。自此，人们对强化学习的研究进入了深度强化学习时代。2016至2017年，DeepMind先后开发的AlphaGo、AlphaGo Zero围棋AI开创性地将深度强化学习与蒙特卡洛树搜索结合，多次战胜人类顶级职业棋手，标志着深度强化学习在复杂问题下的重大突破。之后的两年里，深度强化学习更是被用于攻克当今最难的视频游戏Dota 2和星际争霸2，均以压倒性优势战胜人类顶级玩家，成功站上游戏AI之巅。
[0003]强化学习是一门解决序列决策问题的学科，而强化学习智能体则是通过相关算法训练得到的，可用于解决此类问题的AI。例如，我们可以通过强化学习算法训练出一个精通游戏的智能体；也可以通过类似的方法，训练出一个能够帮物流公司调度货物的机器人。与此同时，对于强化学习智能体所做的每一步决策，此类问题需要有一个合适的评判机制加以评判——当智能体做得对时，我们要“奖励”；当智能体的决策不好，我们要“惩罚”。因此，序列性、可评判构成了强化学习所研究的决策问题的两个重要要素。另一方面，此类问题可被形式化地定义为马尔可夫决策过程问题，即MD...

【技术保护点】

【技术特征摘要】
1.一种基于分布式设计的大规模强化学习训练框架系统，其特征在于，包括：布设在集群内多台计算机上且分布式并行运行的N个行动者模块与M个学习者模块，以及训练数据集中存储模块，行动者模块与学习者模块在运行时分别占用所属计算机中的不同计算资源，N与M均为设定的正整数；其中：每一行动者模块，用于通过智能体当前包含的网络模型，从当前应用场景中获得训练数据；训练数据集中存储模块，用于存储训练数据；每一学习者模块，用于从所述训练数据集中存储模块中提取训练数据进行网络模型的训练，并输出训练得到的网络模型参数更新所述行动者模块中智能体包含的网络模型。2.根据权利要求1所述的一种基于分布式设计的大规模强化学习训练框架系统，其特征在于，所述行动者模块与学习者模块在运行时分别占用所属计算机中的不同计算资源包括：每一行动者模块占用所在计算机中的一个CPU核心，作为一个进程；每一学习者模块占用所属计算机中的一张GPU卡。3.根据权利要求1或2所述的一种基于分布式设计的大规模强化学习训练框架系统，其特征在于，每一行动者模块包括：网络模型推理加速模块、并行环境推演模块与网络模型发现模块；其中：所述网络模型推理加速模块中包含n个智能体副本，所述并行环境推演模块中包含n个环境副本，n个环境副本均为应用场景；所述网络模型发现模块，用于搜寻是否存在训练后的网络模型，若存在，则将所有智能体副本中的网络模型更为新训练后的网络模型；其中，n为设定的正整数；通过所述网络模型推理加速模块与并行环境推演模块的交互，并通过设定的预处理方式，获得训练数据。4.根据权利要求3所述的一种基于分布式设计的大规模强化学习训练框架系统，其特征在于，通过所述网络模型推理加速模块与并行环境推演模块的交互，并通过设定的预处理方式，获得训练数据的步骤包括：通过n个智能体副本与n个环境副本一对一的交互，获得n个环境副本在t时刻的环境状态(s1,s2,
…
,s
n
)，以及n个智能体副本当前包含的网络模型各自根据相应环境状态产生的决策信息(a1,a2,
…
,a
n
)；其中，s
i
表示第i个环境副本在t时刻的环境状态，a
i
表示第i个智能体副本当前包含的网络模型产生的决策信息，i＝1,2...

【专利技术属性】
技术研发人员：李厚强，周文罡，赵天宇，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人