【技术实现步骤摘要】
强化学习平台、基于强化学习平台的模型训练方法及装置
[0001]本申请涉及强化学习领域,以下描述涉及一种强化学习平台、基于强化学习平台的模型训练方法及装置。
技术介绍
[0002]近年来,强化学习在工业、游戏、交通、军事等领域扮演着越来越重要的地位,这些领域都有着自己的仿真器平台,用于模拟真实世界中的逻辑。当用强化学习去解决某一领域的问题时,必然需要结合强化学习算法驱动仿真器进行仿真模拟。然而,目前仿真器的种类较多,强化学习算法的种类也很多,导致仿真器和强化学习算法对接困难,使得通过仿真器进行的强化学习训练效率较低。
技术实现思路
[0003]本公开的示例性实施例可至少解决上述问题,也可不解决上述问题。
[0004]根据本公开的第一方面,提供了一种强化学习平台,其中,强化学习平台包括模型管理器、转换接口、对接模版和调度器,模型管理器中包括管理的多个模型,转换接口包括第一转换接口和第二转换接口,调度器用于基于对接模版创建动作输入单元以及基于对接模版创建态势获取单元,一对动作输入单元和态势获取单元对应于一 ...
【技术保护点】
【技术特征摘要】
1.一种强化学习平台,其中,所述强化学习平台包括模型管理器、转换接口、对接模版和调度器,所述模型管理器中包括管理的多个模型,所述转换接口包括第一转换接口和第二转换接口,所述调度器用于基于所述对接模版创建动作输入单元以及基于所述对接模版创建态势获取单元,一对动作输入单元和态势获取单元对应于一个仿真器:所述态势获取单元用于从所述态势获取单元对应的仿真器的仿真环境信息中提取态势信息;所述第一转换接口用于将所述态势信息转换为所述多个模型中与所述仿真器对应的模型的输入格式匹配的态势数值信息;所述第二转换接口用于将所述模型输出的动作数值信息转换为所述仿真器的输入格式匹配的动作信息;所述动作输入单元用于将所述动作信息输入给所述仿真器。2.根据权利要求1中所述的强化学习平台,其中,所述调度器还用于基于所述对接模版创建所述仿真器对应的初始化单元,所述初始化单元用于对所述仿真器进行初始化配置。3.根据权利要求1中所述的强化学习平台,其中,所述调度器还用于基于所述对接模版创建所述仿真器对应的重置单元,所述重置单元用于在所述仿真器的仿真环境信息符合预定情况或所述仿真器完成任务时对所述仿真器进行重置。4.根据权利要求1中所述的强化学习平台,其中,在使用多个仿真器对所述多个模型中同一个待训练模型进行分布式训练的情况下,所述多个仿真器各自对应的态势获取单元用于从所述多个仿真器各自仿真环境信息中提取所述多个仿真器各自的态势信息,得到多个态势信息;所述第一转换接口用于将所述多个态势信息转换为与所述待训练模型的输入格式匹配的多个态势数值信息;所述第二转换接口用于将所述待训练模型输出的多个动作数值信息转换为与所述多个动作数值信息各自对应的仿真器的输入格式匹配的多个动作信息;所述动作输入单元用于将所述多个动作信息分别输入给各自对应的仿真器。5.根据权利要求4中所述的强化学习平台,其中,所述强化学习平台还包括用于存储每个仿真器对应的态势数值信息和动作数值信息的预定存储区域,在所述待训练模型完成预设步数的仿真的情况下,所述强化学习平台将所述预定存储区域中存储的所述多个仿真器对应的态势数值信息和动作数值信息发送给参数服务器,以使所述参数服务器根据所述态势数值信息和动作数值信息更新所述待训练模型的模型参数。6.一种基于强化学习平台的模型训练方法,其中,所述强化学习平台包括模型管理器、转换接口、对接模版和调度器,所述模型管理器中包括待训练模型,所述转换接口包括第一转换接口和第二转换接口,所述调度器用于基于所述对接模版创建动作输入单元以及基于所述对接模版创建态势获取单元,一对动作输入单元和态势获取单元对应于一个仿真器,所述模型训练方法包括:针对多个仿真器,执行如下循环:
通过所述多个仿真器各自对应的态势获取单元从所述多个仿真器各自仿真环境信息中提取所述多个仿真器各自的态势信息,得到多个态势信息;通过所述...
【专利技术属性】
技术研发人员:颜丙政,戴振衡,刘兴杰,王昱森,刘扬,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。