强化学习智能体训练环境构建方法、装置和电子设备制造方法及图纸

技术编号：41264063 阅读：2 留言：0更新日期：2024-05-11 09:21

本发明专利技术公开了强化学习智能体训练环境构建方法、装置和电子设备，其中，方法包括：分别基于环境设计应用场景，基于智能体设计单元任务及单元属性约束，基于智能体与环境交互方式设计观测交互属性，完成对强化学习智能体训练环境平台的设计；基于强化学习智能体训练环境平台的设计建立数学模型，并基于数学模型完成强化学习智能体训练环境平台构建；设计测试流程，并基于测试流程对强化学习智能体训练环境平台分别进行多智能体协同算法集成测试、接口测试、功能联调联试。本公开实施例实现了针对智能体决策和控制理论的基于强化学习的训练环境构建，实现了多平台学习训练、仿真环境支持回放、多种强化学习模型嵌入等训练优化。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及强化学习智能体训练环境构建技术，尤其是强化学习智能体训练环境构建方法、装置和电子设备。

技术介绍

1、智能博弈是人工智能领域的一个重要研究方向，它涉及到多个学科领域，如计算机科学、数学、经济学、心理学等。智能博弈问题可以分为多种类型，如棋类博弈、牌类博弈、策略游戏等。在智能博弈中，计算机程序需要通过学习和推理来预测对手的下一步行动，并制定相应的策略来达到最终的胜利。这需要计算机程序具备强大的计算能力和算法设计能力，同时还需要对博弈问题的规则和策略有深入的理解。目前，智能博弈已经在棋类游戏、牌类游戏、电子竞技等领域得到了广泛的应用，并且取得了非常好的成绩。未来，随着人工智能技术的不断发展，智能博弈将会在更多的领域得到应用，为人们的生活和工作带来更多的便利和乐趣。

2、面向智能博弈问题，使用多智能体强化学习的方法，通过对实际智能博弈问题的合理抽象与强化学习算法的合理选择，建立多智能体协同防御任务的强化学习训练平台，使智能体可以在一定的对抗环境中有效的进行自主决策，并允许对协同决策智能模型进行训练。

3、目前，尚无现有技术可以解决以上问题，因此，需要一种或多种方法解决上述问题。

4、需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开的目的在于提供强化学习智能体训练环境构建方法、装置和电子设备和介质，进而至少在一定程度上克服由于相关技术

2、根据本公开的一个方面，提供强化学习智能体训练环境构建方法，包括：

3、分别基于环境设计应用场景，基于智能体设计单元任务及单元属性约束，基于智能体与环境交互方式设计观测交互属性，完成对强化学习智能体训练环境平台的设计；

4、基于强化学习智能体训练环境平台的设计建立数学模型，并基于所述数学模型完成强化学习智能体训练环境平台构建；

5、设计测试流程，并基于所述测试流程对所述强化学习智能体训练环境平台分别进行多智能体协同算法集成测试、接口测试、功能联调联试。

6、在本公开的一种示例性实施例中，所述基于智能体设计单元任务及单元属性约束，还包括：

7、所述智能体基于单元规则对所述单元规则进行分析，设计单元任务；

8、所述智能体基于约束条件对所述约束条件进行分析，设计单元属性约束。

9、在本公开的一种示例性实施例中，基于强化学习智能体训练环境平台的设计建立数学模型，并基于所述数学模型完成强化学习智能体训练环境平台构建，还包括：

10、基于强化学习智能体训练环境平台的设计建立数学模型，所述数学模型包括运动学模型、攻击单元数学模型、诱导单元作用模型、屏蔽单元作用模型；

11、基于所述数学模型，分别进行强化学习仿真驱动，算法设计开发环境构建，算法库功能实现，训练管理功能实现，过程数据记录功能实现，过程数据统计与分析功能实现，完成强化学习智能体训练环境平台构建。

12、在本公开的一种示例性实施例中，所述测试流程包括：训练架构搭建、仿真数据接入、训练过程控制、奖励触发、过程信息记录与回溯统计、策略信息回传与仿真过程控制。

13、在本公开的一种示例性实施例中，所述训练架构搭建包括：

14、建立神经网络模型并对所述神经网络模型进行超参数文件配置，基于算法库中的预设智能算法搭建训练架构。

15、在本公开的一种示例性实施例中，所述仿真数据接入包括：

16、基于预设通讯协议，通过强化学习与仿真驱动之间的跨平台数据接口由仿真平台获取态势信息。

17、在本公开的一种示例性实施例中，所述训练过程控制包括：

18、以所述态势信息为输入，基于所述神经网络模型的超参数文件及模型间的协同算法对所述神经网络模型进行训练过程控制。

19、在本公开的一种示例性实施例中，所述测试流程还包括：

20、根据态势信息以事件为单位查找智能体在该态势下从环境中获得的奖励进行奖励触发；

21、对所述奖励触发进行过程信息记录与回溯统计；

22、将决策命令输入至仿真平台进行动作解析、推演，完成策略信息回传与仿真过程控制。

23、在本公开的一个方面，提供强化学习智能体训练环境构建装置，包括：

24、平台设计模块，用于分别基于环境设计应用场景，基于智能体设计单元任务及单元属性约束，基于智能体与环境交互方式设计观测交互属性，完成对强化学习智能体训练环境平台的设计；

25、平台构建模块，用于基于强化学习智能体训练环境平台的设计建立数学模型，并基于所述数学模型完成强化学习智能体训练环境平台构建；

26、平台测试模块，用于设计测试流程，并基于所述测试流程对所述强化学习智能体训练环境平台分别进行多智能体协同算法集成测试、接口测试、功能联调联试。

27、在本公开的一个方面，提供一种电子设备，包括：

28、处理器；以及

29、存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的方法。

30、在本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述任意一项所述的方法。

31、基于本公开实施例，分别基于环境设计应用场景，基于智能体设计单元任务及单元属性约束，基于智能体与环境交互方式设计观测交互属性，完成对强化学习智能体训练环境平台的设计；基于强化学习智能体训练环境平台的设计建立数学模型，并基于数学模型完成强化学习智能体训练环境平台构建；设计测试流程，并基于测试流程对强化学习智能体训练环境平台分别进行多智能体协同算法集成测试、接口测试、功能联调联试。本公开实施例实现了针对智能体决策和控制理论的基于强化学习的训练环境构建，实现了多平台学习训练、仿真环境支持回放、多种强化学习模型嵌入等训练优化。

32、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

33、下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

本文档来自技高网...

【技术保护点】

1.一种强化学习智能体训练环境构建方法，其特征在于，包括：

2.根据权利要求1所述的强化学习智能体训练环境构建方法，其特征在于，所述基于智能体设计单元任务及单元属性约束，还包括：

3.根据权利要求1所述的强化学习智能体训练环境构建方法，其特征在于，基于强化学习智能体训练环境平台的设计建立数学模型，并基于所述数学模型完成强化学习智能体训练环境平台构建，还包括：

4.根据权利要求1所述的强化学习智能体训练环境构建方法，其特征在于，所述测试流程包括：训练架构搭建、仿真数据接入、训练过程控制、奖励触发、过程信息记录与回溯统计、策略信息回传与仿真过程控制。

5.根据权利要求4所述的强化学习智能体训练环境构建方法，其特征在于，所述训练架构搭建包括：

6.根据权利要求5所述的强化学习智能体训练环境构建方法，其特征在于，所述仿真数据接入包括：

7.根据权利要求6所述的强化学习智能体训练环境构建方法，其特征在于，所述训练过程控制包括：

8.根据权利要求7所述的强化学习智能体训练环境构建方法，其特征在于，所述测试流程还包括：

9.一种强化学习智能体训练环境构建装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种强化学习智能体训练环境构建方法，其特征在于，包括：

2.根据权利要求1所述的强化学习智能体训练环境构建方法，其特征在于，所述基于智能体设计单元任务及单元属性约束，还包括：

4.根据权利要求1所述的强化学习智能体训练环境构建方法，其特征在于，所述测试流程包括：训练架构搭建、仿真数据接入、训练过程控制、奖励触发、过程信息记录与回溯统计、策略...

【专利技术属性】
技术研发人员：田思佳，王博，何晓，高龙，蔺文卓，
申请(专利权)人：中国船舶集团有限公司系统工程研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人