一种动态强化学习决策训练系统技术方案

技术编号：24208929 阅读：26 留言：0更新日期：2020-05-20 15:56

一种动态强化学习决策训练系统，包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口；训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成；环境执行引擎模块，用于维护一个底层状态数据结构，输出包含所有状态信息的底层状态数据；观测构建模块，用于负责将底层状态数据转换为适应不同算法需求的状态信息形式，在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息；回报计算模块，用于针对多种回报生成条件设置回报检查点，训练环境模块执行步长中计算检查点回报值并输出；强化学习模型与训练环境模块之间的数据接口包括：状态信息发送接口、动作接收接口、回报发送接口；极大增强算法普适性，降低接口设计难度，同时减小环境对算法形态的限制。

A dynamic reinforcement learning decision training system

全部详细技术资料下载

【技术实现步骤摘要】
一种动态强化学习决策训练系统
本专利技术属于计算机人工智能领域，具体涉及一种强化机器学习的训练系统。
技术介绍
强化学习(ReinforcementLearning，RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是一种不需要先验知识、数据的无监督学习方法，其主要工作模式为策略模型在环境中不断做出动作尝试(探索)，通过接收环境对动作的回报(反馈)获得学习信息并更新模型参数，最终实现模型收敛。目前已有一些深度强化学算法可以在围棋和电子游戏中达到人类水平，体现其在处理复杂、多方面和决策问题方面的巨大潜力，因此，其不仅对工业系统和游戏有用武之地，而且在营销、广告、金融、教育，甚至数据科学本身等领域都有很大的应用前景，是最有希望实现通用人工智能的机器学习技术。任何强化学习方法构成的决策模型都需要有与之对应的训练/使用环境，并有一套相应的接口支撑决策模型与环境交互状态、动作、回报。针对应用领域的不同，环境可以是真实物理环境，也可以是游戏、围棋等某种软件环境。由于真实环境中的训练速度慢、代价高，即便是面向机器人等真实应用的强化学习训练，也更多需要仿真软件环境进行快速训练迭代。在面向强化学习研究、开发的虚拟环境方面，比较常用的有OpenAIGym，在Gym中，简单的环境场景模型手动推导，复杂的模型需要用一些强大的物理引擎。英伟达也推出了面向自主机器人强化学习训练的IsaacSim平台，可以...

【技术保护点】
1.一种动态强化学习决策训练系统，包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口；/n其特征在于：/n训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成；/n环境执行引擎模块，用于维护一个底层状态数据结构，输出包含所有状态信息的底层状态数据；/n观测构建模块，用于负责将底层状态数据转换为适应不同算法需求的状态信息形式，在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息；/n回报计算模块，用于针对多种回报生成条件设置回报检查点，训练环境模块执行步长中计算检查点回报值并输出；/n强化学习模型与训练环境模块之间的数据接口包括：状态信息发送接口、动作接收接口、回报发送接口。/n

【技术特征摘要】
1.一种动态强化学习决策训练系统，包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口；
其特征在于：
训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成；
环境执行引擎模块，用于维护一个底层状态数据结构，输出包含所有状态信息的底层状态数据；
观测构建模块，用于负责将底层状态数据转换为适应不同算法需求的状态信息形式，在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息；
回报计算模块，用于针对多种回报生成条件设置回报检查点，训练环境模块执行步长中计算检查点回报值并输出；
强化学习模型与训练环境模块之间的数据接口包括：状态信息发送接口、动作接收接口、回报发送接口。

2.根据权利要求1所述的一种动态强化学习决策训练系统，其特征在于，对于状态信息发送接口，其中，由环境执行引擎模块输出包含所有状态信息的底层数据；通过观测构建模块针对不同算法需求开发多种状态信息构建算法；观测构建模块负责将底层状态数据转换为适应不同算法需求的状态信息形式，形成状态构建算法集合提供给用户选用。

3.根据权利要求2所述的一种动态强化学习决策训练系统，其特征在于，用户可直接选用预置状态构建算法进行算法训练，也可直接使用底层状态接口共用算法使用。

4.根据权利要求3所述的一种动态强化学习决策训练系统，其特征在于，还包括：与用户进行人机交互的观测生成算法定义模块，通过观测生成算法定义模...

【专利技术属性】
技术研发人员：高放，李明强，陈思，唐思琦，黄彬城，
申请(专利权)人：中国电子科技集团公司信息科学研究院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人