面向超实时仿真环境的分布式强化学习训练方法及装置制造方法及图纸

技术编号:26173028 阅读:49 留言:0更新日期:2020-10-31 13:53
本发明专利技术实施例提供一种面向超实时仿真环境的分布式强化学习训练方法及装置,所述方法包括:通过将超实时仿真环境与行动器部署在同一台虚拟机上,并控制超实时仿真环境在向所述行动器发送环境观察时添加包含有动作指令最晚反馈时间限制信息的附加信息戳,控制行动器根据环境观察输出动作决策并将动作决策转换为动作指令,同时控制行动器根据动作指令最晚反馈时间限制信息判断若动作指令未在动作指令最晚反馈时间限制内发送至超实时仿真环境,则控制行动器暂停超实时仿真环境的运行直至行动器将动作指令发送至所述超实时仿真环境,从而能够缩短分布式强化学习框架的决策流程时长,避免因过长决策延时导致下达动作指令失效。

【技术实现步骤摘要】
面向超实时仿真环境的分布式强化学习训练方法及装置
本专利技术涉及分布式强化学习
,尤其涉及一种面向超实时仿真环境的分布式强化学习训练方法及装置。
技术介绍
深度强化学习(DeepReinforcementLearning,简称“DRL”)通过使用深层网络来表示估值函数、策略和模型,实现了由神经网络驱动的端到端学习。深度强化学习使得强化学习技术真正应用在现实场景中,解决如自然语言处理、机器人控制、资源调度、性能优化、仿真模拟、游戏博弈等领域的复杂问题。然而,日益复杂的应用问题也极大地增加了深度强化学习的训练难度,导致计算资源消耗量的急速增长。受制于功耗与工艺进步的限制,单台计算设备的CPU、GPU性能提升日趋缓慢,已经远远无法满足深度强化学习大规模试错的要求。因此系统整体算力的提高必须借助于分布式集群与分布式强化学习框架,通过分布式计算的方式来满足深度强化学习训练飞速增长的性能需求。另一方面,目前的深度强化学习技术还不能普及到考虑逻辑推理与情感分析的复杂现实场景,因此拥有一个适当抽象的仿真环境是开展强化学习训练的重要基础。仿真环境负责为智能体构建一个虚拟的世界,为其设定具体任务目标,并为不同的试验行为提供反馈以及奖励机制等等。然而,当深度强化学习应用于超实时仿真环境中时,仿真时钟显著快于实际物理时钟,即模型仿真的解算速度可快于实际系统运行的速度数十倍甚至数百倍。若在现实场景下,实体需在数秒钟的物理时间内做出决策与动作,那运行在超实时仿真环境中的智能体则需要在毫秒级的延时内从环境获取观察,做出决策,并下达相应动作指令。现有的分布式强化学习框架的决策流程耗时长,获取观察、奖励以及下达动作指令的延迟较高。这往往导致动作指令到达环境后,环境状态与指令执行的上下文已经发生了重大改变,此时继续执行过时的动作指令将无法实现预期的效果。因此,如何提出一种方法,能够缩短分布式强化学习框架的决策流程时长,降低获取动作指令的延迟,从而应用于超实时仿真环境,成为亟待解决的问题。
技术实现思路
本专利技术实施例提供一种面向超实时仿真环境的分布式强化学习训练方法及装置,用以解决现有技术中分布式强化学习框架的决策流程时长的缺陷,实现降低获取动作指令的延迟,从而应用于超实时仿真环境。本专利技术实施例提供一种面向超实时仿真环境的分布式强化学习训练方法,所述方法应用于对分布式强化学习系统进行训练,所述系统包括:由超实时仿真环境和行动器组成的训练单元;相应地,所述方法包括:将所述超实时仿真环境与所述行动器部署在同一台虚拟机上;控制所述超实时仿真环境在向所述行动器发送环境观察时添加附加信息戳,所述附加信息戳中包含有动作指令最晚反馈时间限制信息;控制所述行动器根据所述环境观察输出动作决策并将所述动作决策转换为动作指令,同时控制所述行动器根据所述动作指令最晚反馈时间限制信息判断所述动作指令是否在动作指令最晚反馈时间限制内发送至所述超实时仿真环境,若否,则控制所述行动器暂停所述超实时仿真环境的运行直至行动器将所述动作指令发送至所述超实时仿真环境。根据本专利技术一个实施例的面向超实时仿真环境的分布式强化学习训练方法,所述动作指令最晚反馈时间限制信息包括:当前仿真时间t、当前仿真加速比s以及动作指令最晚允许执行时间d;相应地,控制所述行动器根据所述动作指令最晚反馈时间限制信息判断所述动作指令是否在动作指令最晚反馈时间限制内发送至所述超实时仿真环境,包括:控制所述行动器根据所述动作指令最晚反馈时间限制信息确定所述行动器用于决策的墙钟时间w=(d-t)/s;控制所述行动器判断所述动作指令是否在所述墙钟时间w内发送至所述超实时仿真环境。根据本专利技术一个实施例的面向超实时仿真环境的分布式强化学习训练方法,控制所述行动器根据所述环境观察输出动作决策并将所述动作决策转换为动作指令,同时控制所述行动器根据所述动作指令最晚反馈时间限制信息判断所述动作指令是否在动作指令最晚反馈时间限制内发送至所述超实时仿真环境,若否,则控制所述行动器暂停所述超实时仿真环境的运行直至行动器将所述动作指令发送至所述超实时仿真环境,包括:控制所述行动器生成主线程和计时线程;控制所述主线程执行根据所述环境观察输出动作决策并将所述动作决策转换为动作指令以及向所述超实时仿真环境发送动作指令的处理过程;控制所述计时线程执行所述墙钟时间的倒计时处理过程;判断所述计时线程是否早于所述主线程结束,若是,则在所述计时线程的结束时刻控制所述行动器暂停所述超实时仿真环境的运行直至所述主线程将所述动作指令发送至所述超实时仿真环境。根据本专利技术一个实施例的面向超实时仿真环境的分布式强化学习训练方法,所述系统还包括:参数服务器和私有云;所述训练单元还包括:学习器和回放存储器;相应地,将所述超实时仿真环境与所述行动器部署在同一台虚拟机上,包括:向OpenStack请求虚拟化资源,为所述参数服务器配备一台虚拟机;按照每个训练单元配备两台虚拟机的比例,向OpenStack请求虚拟化资源,使得所述超实时仿真环境和所述行动器共享一台虚拟机,以及,使得所述学习器和所述回放存储器共享一台虚拟机;为与所述参数服务器对应的虚拟机、与所述超实时仿真环境和所述行动器对应的虚拟机、以及与所述学习器和所述回放存储器对应的虚拟机,创建集群虚拟网络并生成访问密钥对;设置安全组规则,并允许通过ssh端口访问所述集群虚拟网络;为与所述参数服务器对应的虚拟机加载“参数服务器镜像”,为与所述超实时仿真环境和所述行动器对应的虚拟机加载超实时仿真环境-行动器镜像,以及,为与所述学习器和所述回放存储器对应的虚拟机加载回放存储器-学习器镜像,完成集群部署。根据本专利技术一个实施例的面向超实时仿真环境的分布式强化学习训练方法,所述超实时仿真环境采用编译型语言编写,所述行动器采用解释型语言编写;相应地,控制所述超实时仿真环境采用ICERPC向所述行动器发送环境观察,以及,控制所述行动器采用ICERPC向所述超实时仿真环境发送动作指令。根据本专利技术一个实施例的面向超实时仿真环境的分布式强化学习训练方法,还包括:获取所述行动器与所述超实时仿真环境交互产生的经验元组,并将所述经验元组以时序数据的方式存放在所述回放存储器中;其中,所述经验元组包括:环境观察、响应所述环境观察得到的动作指令、执行所述动作指令得到的回报,以及,对下一时刻状态的环境观察。根据本专利技术一个实施例的面向超实时仿真环境的分布式强化学习训练方法,所述系统包括多个训练单元;相应地,所述方法还包括:控制每个训练单元中的学习器从相应的回放存储器中解析预设时间段内产生的经验元组序列,并控制学习器计算用于每个经验元组的梯度,以及根据随机梯度下降法修改学习器的Q网络参数;控制每个训练单元中的学习器将相应学习器的Q网络参数通过网络发送给所述参数服务器,并使得所述参数服务器综合各个训练单元中学习器的Q网络参数更新每个训练单元中的行动器和学习器本文档来自技高网
...

【技术保护点】
1.一种面向超实时仿真环境的分布式强化学习训练方法,其特征在于,所述方法应用于对分布式强化学习系统进行训练,所述系统包括:由超实时仿真环境和行动器组成的训练单元;/n相应地,所述方法包括:/n将所述超实时仿真环境与所述行动器部署在同一台虚拟机上;/n控制所述超实时仿真环境在向所述行动器发送环境观察时添加附加信息戳,所述附加信息戳中包含有动作指令最晚反馈时间限制信息;/n控制所述行动器根据所述环境观察输出动作决策并将所述动作决策转换为动作指令,同时控制所述行动器根据所述动作指令最晚反馈时间限制信息判断所述动作指令是否在动作指令最晚反馈时间限制内发送至所述超实时仿真环境,若否,则控制所述行动器暂停所述超实时仿真环境的运行直至行动器将所述动作指令发送至所述超实时仿真环境。/n

【技术特征摘要】
1.一种面向超实时仿真环境的分布式强化学习训练方法,其特征在于,所述方法应用于对分布式强化学习系统进行训练,所述系统包括:由超实时仿真环境和行动器组成的训练单元;
相应地,所述方法包括:
将所述超实时仿真环境与所述行动器部署在同一台虚拟机上;
控制所述超实时仿真环境在向所述行动器发送环境观察时添加附加信息戳,所述附加信息戳中包含有动作指令最晚反馈时间限制信息;
控制所述行动器根据所述环境观察输出动作决策并将所述动作决策转换为动作指令,同时控制所述行动器根据所述动作指令最晚反馈时间限制信息判断所述动作指令是否在动作指令最晚反馈时间限制内发送至所述超实时仿真环境,若否,则控制所述行动器暂停所述超实时仿真环境的运行直至行动器将所述动作指令发送至所述超实时仿真环境。


2.根据权利要求1所述的面向超实时仿真环境的分布式强化学习训练方法,其特征在于,所述动作指令最晚反馈时间限制信息包括:当前仿真时间t、当前仿真加速比s以及动作指令最晚允许执行时间d;相应地,控制所述行动器根据所述动作指令最晚反馈时间限制信息判断所述动作指令是否在动作指令最晚反馈时间限制内发送至所述超实时仿真环境,包括:
控制所述行动器根据所述动作指令最晚反馈时间限制信息确定所述行动器用于决策的墙钟时间w=(d-t)/s;
控制所述行动器判断所述动作指令是否在所述墙钟时间w内发送至所述超实时仿真环境。


3.根据权利要求2所述的面向超实时仿真环境的分布式强化学习训练方法,其特征在于,控制所述行动器根据所述环境观察输出动作决策并将所述动作决策转换为动作指令,同时控制所述行动器根据所述动作指令最晚反馈时间限制信息判断所述动作指令是否在动作指令最晚反馈时间限制内发送至所述超实时仿真环境,若否,则控制所述行动器暂停所述超实时仿真环境的运行直至行动器将所述动作指令发送至所述超实时仿真环境,包括:
控制所述行动器生成主线程和计时线程;
控制所述主线程执行根据所述环境观察输出动作决策并将所述动作决策转换为动作指令以及向所述超实时仿真环境发送动作指令的处理过程;
控制所述计时线程执行所述墙钟时间的倒计时处理过程;
判断所述计时线程是否早于所述主线程结束,若是,则在所述计时线程的结束时刻控制所述行动器暂停所述超实时仿真环境的运行直至所述主线程将所述动作指令发送至所述超实时仿真环境。


4.根据权利要求1所述的面向超实时仿真环境的分布式强化学习训练方法,其特征在于,所述系统还包括:参数服务器和私有云;所述训练单元还包括:学习器和回放存储器;
相应地,将所述超实时仿真环境与所述行动器部署在同一台虚拟机上,包括:
向OpenStack请求虚拟化资源,为所述参数服务器配备一台虚拟机;
按照每个训练单元配备两台虚拟机的比例,向OpenStack请求虚拟化资源,使得所述超实时仿真环境和所述行动器共享一台虚拟机,以及,使得所述学习器和所述回放存储器共享一台虚拟机;
为与所述参数服务器对应的虚拟机、与所述超实时仿真环境和所述行动器对应的虚拟机、以及与所述学习器和所述回放存储器对应的虚拟机,...

【专利技术属性】
技术研发人员:徐新海刘逊韵李渊李晟泽李豪张帅
申请(专利权)人:中国人民解放军军事科学院战争研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1