一种强化学习算法的训练方法及装置制造方法及图纸

技术编号：40467263 阅读：5 留言：0更新日期：2024-02-22 23:21

本申请公开了一种强化学习算法的训练方法及装置，方法包括：构建环境模型；将环境模型导出为支持第一通信协议的功能模型；基于第一通信协议接收处理系统发送的调用指令，处理系统至少用于运行强化学习算法模型；基于调用指令将所述功能模型通过第一通信协议发送给处理系统，以使处理系统控制对功能模型和强化学习算法模型进行联合仿真。上述方案首先在仿真软件侧导出了支持第一通信协议的功能模型，进而处理系统能够基于第一通信协议调用所述功能模型，实现了仿真软件和处理系统之间的数据通信；本方案将仿真软件平台应用于强化学习算法的训练中，可以快速方便地构建真实复杂的环境模型，为多领域的强化学习提供通用性的智能体训练实现。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及深度学习，更具体的说，是涉及一种强化学习算法的训练方法及装置。

技术介绍

1、强化学习是讨论一个智能体如何在一个复杂环境里极大化获得奖励的问题，智能体通过感知所处环境的状态对动作的反应，来指导动作获得收益，是一种交互式学习方法。强化学习方法由智能体和环境两部分组成，包括状态、决策、奖励三要素。环境是外部系统，智能体是嵌入到环境中的系统，智能体能通过决策改变环境的状态，奖励是环境反馈给智能体的奖励信号，通过多次迭代强化智能体系统模型的决策能力，且环境系统模型越真实复杂，训练得到的智能体系统模型就越精确。

2、强化学习目前在很多领域都得到了广泛的应用，但不同领域的强化学习算法训练软件平台并不通用。如何能提供一种通用易操作的强化学习算法的训练方法成为领域内相关技术人员研究的热点。

技术实现思路

1、有鉴于此，本申请提供如下技术方案：

2、一种强化学习算法的训练方法，应用于仿真软件侧，包括：

3、构建环境模型；

4、将所述环境模型导出为支持第一通信协议的功能模型；

5、基于所述第一通信协议接收处理系统发送的调用指令，所述处理系统至少用于运行强化学习算法模型；

6、基于所述调用指令将所述功能模型通过所述第一通信协议发送给所述处理系统。

7、可选地，所述将所述环境模型导出为支持第一通信协议的功能模型，包括：

8、导入第一通信协议模块；

9、配置所述第一通信协议模块，得到功能模型

10、将所述环境模型导入所述功能模型模板，得到功能模型。

11、可选地，在所述基于所述调用指令将所述功能模型通过所述第一通信协议发送给所述处理系统后，还包括：

12、基于所述第一通信协议接收所述处理系统发送的决策指令；

13、基于所述决策指令调整所述环境模型的运行参数。

14、可选地，在所述基于所述决策指令调整所述环境模型的运行参数后，还包括：

15、基于所述第一通信协议将调整运行参数后所述环境模型输出的状态数据和奖励数据发送给所述处理系统；

16、其中，所述奖励数据表征环境模型反馈给处理系统的奖励信号。

17、一种强化学习算法的训练方法，应用于处理系统侧，包括：

18、基于第一通信协议调用仿真软件侧的功能模型，所述功能模型为支持所述第一通信协议的环境模型；

19、控制对所述功能模型和强化学习算法模型进行联合仿真。

20、可选地，所述基于第一通信协议调用仿真软件侧的功能模型，包括：

21、基于第一通信协议，通过第一程序设计语言的开源库调用仿真软件侧的功能模型。

22、可选地，所述控制对所述功能模型和强化学习算法模型进行联合仿真，包括：

23、在第一程序设计语言的编译环境中，通过第一程序设计语言的开源库解析并仿真所述功能模型；

24、将所述功能模型的输出数据输入强化学习算法模型，得到所述强化学习算法模型输出的决策指令，所述强化学习算法模型为与所述功能模型关联的算法模型；

25、基于所述第一通信协议将所述决策指令发送至仿真软件侧的所述功能模型。

26、可选地，所述输出数据包括状态数据和奖励数据，其中，所述奖励数据表征环境模型反馈给处理系统的奖励信号。

27、一种强化学习算法的训练装置，应用于仿真软件测，包括：

28、模型构建模块，用于构建环境模型；

29、模型导出模块，用于将所述环境模型导出为支持第一通信协议的功能模型；

30、指令接收模块，用于基于所述第一通信协议接收处理系统发送的调用指令，所述处理系统至少用于运行强化学习算法模型；

31、模型发送模块，用于基于所述调用指令将所述功能模型通过所述第一通信协议发送给所述处理系统。

32、一种强化学习算法的训练装置，应用于处理系统侧，包括：

33、模型调用模块，用于基于第一通信协议调用仿真软件侧的功能模型，所述功能模型为支持所述第一通信协议的环境模型；

34、仿真控制模块，用于控制对所述功能模型和强化学习算法模型进行联合仿真。

35、经由上述的技术方案可知，本申请实施例公开了一种强化学习算法的训练方法及装置，方法包括：构建环境模型；将所述环境模型导出为支持第一通信协议的功能模型；基于所述第一通信协议接收处理系统发送的调用指令，所述处理系统至少用于运行强化学习算法模型；基于所述调用指令将所述功能模型通过所述第一通信协议发送给所述处理系统，以使处理系统控制对所述功能模型和强化学习算法模型进行联合仿真。上述方案首先在仿真软件侧导出了支持第一通信协议的功能模型，进而处理系统能够基于第一通信协议调用所述功能模型，实现了仿真软件和处理系统之间的数据通信；本方案将仿真软件平台应用于强化学习算法的训练中，可以快速方便地构建真实复杂的环境模型，为多领域的强化学习提供通用性的智能体训练实现。

本文档来自技高网...

【技术保护点】

1.一种强化学习算法的训练方法，应用于仿真软件侧，其特征在于，包括：

2.根据权利要求1所述的强化学习算法的训练方法，其特征在于，所述将所述环境模型导出为支持第一通信协议的功能模型，包括：

3.根据权利1所述的强化学习算法的训练方法，其特征在于，在所述基于所述调用指令将所述功能模型通过所述第一通信协议发送给所述处理系统后，还包括：

4.根据权利要求3所述的强化学习算法的训练方法，其特征在于，在所述基于所述决策指令调整所述环境模型的运行参数后，还包括：

5.一种强化学习算法的训练方法，应用于处理系统侧，其特征在于，包括：

6.根据权利要求5所述的强化学习算法的训练方法，其特征在于，所述基于第一通信协议调用仿真软件侧的功能模型，包括：

7.根据权利要求5所述的强化学习算法的训练方法，其特征在于，所述控制对所述功能模型和强化学习算法模型进行联合仿真，包括：

8.根据权利要求7所述的强化学习算法的训练方法，其特征在于，所述输出数据包括状态数据和奖励数据，其中，所述奖励数据表征环境模型反馈给处理系统的奖励信号。

9.一种强化学习算法的训练装置，应用于仿真软件测，其特征在于，包括：

10.一种强化学习算法的训练装置，应用于处理系统侧，其特征在于，包括：

...

【技术特征摘要】

1.一种强化学习算法的训练方法，应用于仿真软件侧，其特征在于，包括：

2.根据权利要求1所述的强化学习算法的训练方法，其特征在于，所述将所述环境模型导出为支持第一通信协议的功能模型，包括：

4.根据权利要求3所述的强化学习算法的训练方法，其特征在于，在所述基于所述决策指令调整所述环境模型的运行参数后，还包括：

5.一种强化学习算法的训练方法，应用于处理系统侧，其特征在于，包括：

<...

【专利技术属性】
技术研发人员：张桥，李京燕，李婷，
申请(专利权)人：深圳世冠数智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人