面向超实时仿真环境的分布式强化学习训练方法及装置制造方法及图纸

技术编号：26173028 阅读：49 留言：0更新日期：2020-10-31 13:53

本发明专利技术实施例提供一种面向超实时仿真环境的分布式强化学习训练方法及装置，所述方法包括：通过将超实时仿真环境与行动器部署在同一台虚拟机上，并控制超实时仿真环境在向所述行动器发送环境观察时添加包含有动作指令最晚反馈时间限制信息的附加信息戳，控制行动器根据环境观察输出动作决策并将动作决策转换为动作指令，同时控制行动器根据动作指令最晚反馈时间限制信息判断若动作指令未在动作指令最晚反馈时间限制内发送至超实时仿真环境，则控制行动器暂停超实时仿真环境的运行直至行动器将动作指令发送至所述超实时仿真环境，从而能够缩短分布式强化学习框架的决策流程时长，避免因过长决策延时导致下达动作指令失效。

全部详细技术资料下载

【技术实现步骤摘要】
面向超实时仿真环境的分布式强化学习训练方法及装置
本专利技术涉及分布式强化学习
，尤其涉及一种面向超实时仿真环境的分布式强化学习训练方法及装置。
技术介绍
深度强化学习(DeepReinforcementLearning，简称“DRL”)通过使用深层网络来表示估值函数、策略和模型，实现了由神经网络驱动的端到端学习。深度强化学习使得强化学习技术真正应用在现实场景中，解决如自然语言处理、机器人控制、资源调度、性能优化、仿真模拟、游戏博弈等领域的复杂问题。然而，日益复杂的应用问题也极大地增加了深度强化学习的训练难度，导致计算资源消耗量的急速增长。受制于功耗与工艺进步的限制，单台计算设备的CPU、GPU性能提升日趋缓慢，已经远远无法满足深度强化学习大规模试错的要求。因此系统整体算力的提高必须借助于分布式集群与分布式强化学习框架，通过分布式计算的方式来满足深度强化学习训练飞速增长的性能需求。另一方面，目前的深度强化学习技术还不能普及到考虑逻辑推理与情感分析的复杂现实场景，因此拥有一个适当抽象的仿真环境是开展强化学习训练的重要基础。仿真环境负责为智能体构建一个虚拟的世界，为其设定具体任务目标，并为不同的试验行为提供反馈以及奖励机制等等。然而，当深度强化学习应用于超实时仿真环境中时，仿真时钟显著快于实际物理时钟，即模型仿真的解算速度可快于实际系统运行的速度数十倍甚至数百倍。若在现实场景下，实体需在数秒钟的物理时间内做出决策与动作，那运行在超实时仿真环境中的智能体则需要在毫秒级的延时内从环境获取观察，做出决策，...

【技术保护点】
1.一种面向超实时仿真环境的分布式强化学习训练方法，其特征在于，所述方法应用于对分布式强化学习系统进行训练，所述系统包括：由超实时仿真环境和行动器组成的训练单元；/n相应地，所述方法包括：/n将所述超实时仿真环境与所述行动器部署在同一台虚拟机上；/n控制所述超实时仿真环境在向所述行动器发送环境观察时添加附加信息戳，所述附加信息戳中包含有动作指令最晚反馈时间限制信息；/n控制所述行动器根据所述环境观察输出动作决策并将所述动作决策转换为动作指令，同时控制所述行动器根据所述动作指令最晚反馈时间限制信息判断所述动作指令是否在动作指令最晚反馈时间限制内发送至所述超实时仿真环境，若否，则控制所述行动器暂停所述超实时仿真环境的运行直至行动器将所述动作指令发送至所述超实时仿真环境。/n

【技术特征摘要】
1.一种面向超实时仿真环境的分布式强化学习训练方法，其特征在于，所述方法应用于对分布式强化学习系统进行训练，所述系统包括：由超实时仿真环境和行动器组成的训练单元；
相应地，所述方法包括：
将所述超实时仿真环境与所述行动器部署在同一台虚拟机上；
控制所述超实时仿真环境在向所述行动器发送环境观察时添加附加信息戳，所述附加信息戳中包含有动作指令最晚反馈时间限制信息；
控制所述行动器根据所述环境观察输出动作决策并将所述动作决策转换为动作指令，同时控制所述行动器根据所述动作指令最晚反馈时间限制信息判断所述动作指令是否在动作指令最晚反馈时间限制内发送至所述超实时仿真环境，若否，则控制所述行动器暂停所述超实时仿真环境的运行直至行动器将所述动作指令发送至所述超实时仿真环境。

2.根据权利要求1所述的面向超实时仿真环境的分布式强化学习训练方法，其特征在于，所述动作指令最晚反馈时间限制信息包括：当前仿真时间t、当前仿真加速比s以及动作指令最晚允许执行时间d；相应地，控制所述行动器根据所述动作指令最晚反馈时间限制信息判断所述动作指令是否在动作指令最晚反馈时间限制内发送至所述超实时仿真环境，包括：
控制所述行动器根据所述动作指令最晚反馈时间限制信息确定所述行动器用于决策的墙钟时间w＝(d-t)/s；
控制所述行动器判断所述动作指令是否在所述墙钟时间w内发送至所述超实时仿真环境。

3.根据权利要求2所述的面向超实时仿真环境的分布式强化学习训练方法，其特征在于，控制所述行动器根据所述环境观察输出动作决策并将所述动作决策转换为动作指令，同时控制所述行动器根据所述动作指令最晚反馈时间限制信息判断所述动作指令是否在动作指令最晚反馈时间限制内发送至所述超实时仿真环境，若否，则控制所述行动器暂停所述超实时仿真环境的运行直至行动器将所述动作指令发送至所述超实时仿真环境，包括：
控制所述行动器生成主线程和计时线程；
控制所述主线程执行根据所述环境观察输出动作决策并将所述动作决策转换为动作指令以及向所述超实时仿真环境发送动作指令的处理过程；
控制所述计时线程执行所述墙钟时间的倒计时处理过程；
判断所述计时线程是否早于所述主线程结束，若是，则在所述计时线程的结束时刻控制所述行动器暂停所述超实时仿真环境的运行直至所述主线程将所述动作指令发送至所述超实时仿真环境。

4.根据权利要求1所述的面向超实时仿真环境的分布式强化学习训练方法，其特征在于，所述系统还包括：参数服务器和私有云；所述训练单元还包括：学习器和回放存储器；
相应地，将所述超实时仿真环境与所述行动器部署在同一台虚拟机上，包括：
向OpenStack请求虚拟化资源，为所述参数服务器配备一台虚拟机；
按照每个训练单元配备两台虚拟机的比例，向OpenStack请求虚拟化资源，使得所述超实时仿真环境和所述行动器共享一台虚拟机，以及，使得所述学习器和所述回放存储器共享一台虚拟机；
为与所述参数服务器对应的虚拟机、与所述超实时仿真环境和所述行动器对应的虚拟机、以及与所述学习器和所述回放存储器对应的虚拟机，...

【专利技术属性】
技术研发人员：徐新海，刘逊韵，李渊，李晟泽，李豪，张帅，
申请(专利权)人：中国人民解放军军事科学院战争研究院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人