一种动态强化学习决策训练系统技术方案

技术编号:24208929 阅读:26 留言:0更新日期:2020-05-20 15:56
一种动态强化学习决策训练系统,包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口;训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成;环境执行引擎模块,用于维护一个底层状态数据结构,输出包含所有状态信息的底层状态数据;观测构建模块,用于负责将底层状态数据转换为适应不同算法需求的状态信息形式,在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息;回报计算模块,用于针对多种回报生成条件设置回报检查点,训练环境模块执行步长中计算检查点回报值并输出;强化学习模型与训练环境模块之间的数据接口包括:状态信息发送接口、动作接收接口、回报发送接口;极大增强算法普适性,降低接口设计难度,同时减小环境对算法形态的限制。

A dynamic reinforcement learning decision training system

【技术实现步骤摘要】
一种动态强化学习决策训练系统
本专利技术属于计算机人工智能领域,具体涉及一种强化机器学习的训练系统。
技术介绍
强化学习(ReinforcementLearning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是一种不需要先验知识、数据的无监督学习方法,其主要工作模式为策略模型在环境中不断做出动作尝试(探索),通过接收环境对动作的回报(反馈)获得学习信息并更新模型参数,最终实现模型收敛。目前已有一些深度强化学算法可以在围棋和电子游戏中达到人类水平,体现其在处理复杂、多方面和决策问题方面的巨大潜力,因此,其不仅对工业系统和游戏有用武之地,而且在营销、广告、金融、教育,甚至数据科学本身等领域都有很大的应用前景,是最有希望实现通用人工智能的机器学习技术。任何强化学习方法构成的决策模型都需要有与之对应的训练/使用环境,并有一套相应的接口支撑决策模型与环境交互状态、动作、回报。针对应用领域的不同,环境可以是真实物理环境,也可以是游戏、围棋等某种软件环境。由于真实环境中的训练速度慢、代价高,即便是面向机器人等真实应用的强化学习训练,也更多需要仿真软件环境进行快速训练迭代。在面向强化学习研究、开发的虚拟环境方面,比较常用的有OpenAIGym,在Gym中,简单的环境场景模型手动推导,复杂的模型需要用一些强大的物理引擎。英伟达也推出了面向自主机器人强化学习训练的IsaacSim平台,可以支撑拥有激光雷达、摄像头等传感器的机器人在仿真环境中进行强化学习自主动作训练。GoogleDeepMind联合暴雪游戏公司推出面向星际争霸2的强化学习研究环境SC2LE,提供基于一组用于与星际争霸2游戏交互信息及控制指令的API,以支撑星际争霸2人工智能研究。上述环境可以快速验证强化学习算法,形成有效的强化学习策略模型。此类强化学习环境平台均提供一套固定的强化学习训练交互接口,研发人员基于这些环境进行强化学习算法研究,必须遵循其接口规范,如数据组织方式、交互流程等。这种情况一方面限制了强化学习算法技术形态,使某些算法不适合当前平台的接口规范,阻碍该算法在此平台进行应用或增加研发人员的平台适配工作量;另一方面,平台开发人员不得不设计尽量普适性的接口规范,以适合不同形式的模型训练,增加平台设计难度,但很多时候由于算法的千变万化,接口普适性效果并不好。
技术实现思路
本专利技术要解决的是传统强化学习训练环境算法接口固化,导致接口普适性设计难度大、算法适配难度大等技术问题。为实现上述目的,本专利技术提供如下技术方案:一种动态强化学习决策训练系统,包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口;其特征在于:训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成;环境执行引擎模块,用于维护一个底层状态数据结构,输出包含所有状态信息的底层状态数据;观测构建模块,用于负责将底层状态数据转换为适应不同算法需求的状态信息形式,在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息;回报计算模块,用于针对多种回报生成条件设置回报检查点,训练环境模块执行步长中计算检查点回报值并输出;强化学习模型与训练环境模块之间的数据接口包括:状态信息发送接口、动作接收接口、回报发送接口。本专利技术动态强化学习决策训练系统的优点:本专利技术的强化学习训练系统及接口架构可以极大增强算法普适性,降低接口设计难度,同时减小环境对算法形态的限制,降低用户将强化学习算法针对环境进行不必要的接口适配的工作量。附图说明图1为本专利技术动态强化学习决策训练系统构成示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术具体方案如下:一种动态强化学习决策训练系统,包括强化学习模型、训练环境模块。训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个关键功能模块构成。还包括与用户进行人机交互的观测生成算法定义模块、回报生成定义模块,通过观测生成算法定义模块、回报生成定义模块,用户可指定与特定的强化学习模型相对应的观测构建算法及回报生成定义。环境执行引擎模块维护一个底层状态数据结构,同时构建观测构建模块,在训练/执行过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息;回报计算模块针对多种回报生成条件设置回报检查点,通过回报生成定义模块,用户定义每个检查点的赋值规则,训练环境模块执行步长中计算检查点回报值并输出。强化学习模型与训练环境模块之间的数据接口主要包括状态信息发送接口、动作接收接口、回报发送接口。状态信息发送接口,由于不同强化学习算法需要不同的状态数据格式和信息组织形式,如基于离散数据的状态信息、基于图像的状态信息、基于多图层数据的状态信息和多种类型混合的状态信息,对于环境来说,需要设计一套满足任意算法训练、执行所需要的接口;其中,由环境执行引擎模块输出包含所有状态信息的底层数据(基础状态数据)。通过观测构建模块针对不同算法需求开发多种状态信息构建算法。观测构建模块负责将底层状态数据转换为适应不同算法需求的状态信息形式,形成状态构建算法集合提供给用户选用。用户可直接选用预置状态构建算法进行算法训练,也可直接使用底层状态接口共用算法使用。利用观测生成算法定义模块,用户也可自主定制符合算法需求的观测构建模块;在训练/执行过程中,训练环境模块通过回调或动态加载机制调用对应观测构建模块生成状态信息。动作接收接口,动作的划分主要取决于环境本身,由于动作与环境本身密切相关,因此不再进行适应性匹配。强化学习模型的动作信息输出可直接输出至训练环境模块中的环境执行引擎模块。当强化学习模型输出不能直接匹配环境可接收动作,如进行了抽象、扩展、简化等,则可设计由强化学习模型负责相应动作信息转换。回报发送接口,用户(算法研究人员)经常需要不断修改回报生成规则和回报形式,寻找最有效的回报激励方案,传统环境采用固定的回报生成策略的形式会阻碍强化学习算法研究。训练环境模块中的回报计算模块在环境中针对多种回报生成条件设置回报检查点;利用回报生成定义模块,由用户编写回报定义脚本,指定每个检查点所生成的回报值,每个检查点赋值可正可负,若不使用则直接设置为0即可;每一步长执行完成后环境计算每个检查点生成的回报总和,作为最终回报值输出。实施例:具体实际应用时,可面向人工智能决策训练、执行的软件系统、无人机、无人车、机器人等无人系统本文档来自技高网
...

【技术保护点】
1.一种动态强化学习决策训练系统,包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口;/n其特征在于:/n训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成;/n环境执行引擎模块,用于维护一个底层状态数据结构,输出包含所有状态信息的底层状态数据;/n观测构建模块,用于负责将底层状态数据转换为适应不同算法需求的状态信息形式,在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息;/n回报计算模块,用于针对多种回报生成条件设置回报检查点,训练环境模块执行步长中计算检查点回报值并输出;/n强化学习模型与训练环境模块之间的数据接口包括:状态信息发送接口、动作接收接口、回报发送接口。/n

【技术特征摘要】
1.一种动态强化学习决策训练系统,包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口;
其特征在于:
训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成;
环境执行引擎模块,用于维护一个底层状态数据结构,输出包含所有状态信息的底层状态数据;
观测构建模块,用于负责将底层状态数据转换为适应不同算法需求的状态信息形式,在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息;
回报计算模块,用于针对多种回报生成条件设置回报检查点,训练环境模块执行步长中计算检查点回报值并输出;
强化学习模型与训练环境模块之间的数据接口包括:状态信息发送接口、动作接收接口、回报发送接口。


2.根据权利要求1所述的一种动态强化学习决策训练系统,其特征在于,对于状态信息发送接口,其中,由环境执行引擎模块输出包含所有状态信息的底层数据;通过观测构建模块针对不同算法需求开发多种状态信息构建算法;观测构建模块负责将底层状态数据转换为适应不同算法需求的状态信息形式,形成状态构建算法集合提供给用户选用。


3.根据权利要求2所述的一种动态强化学习决策训练系统,其特征在于,用户可直接选用预置状态构建算法进行算法训练,也可直接使用底层状态接口共用算法使用。


4.根据权利要求3所述的一种动态强化学习决策训练系统,其特征在于,还包括:与用户进行人机交互的观测生成算法定义模块,通过观测生成算法定义模...

【专利技术属性】
技术研发人员:高放李明强陈思唐思琦黄彬城
申请(专利权)人:中国电子科技集团公司信息科学研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1