强化学习决策系统及决策方法技术方案

技术编号：40275761 阅读：13 留言：0更新日期：2024-02-02 23:02

本公开涉及一种强化学习决策系统及决策方法。决策系统包括决策模块和分布式强化学习框架。决策模块包括至少一个决策智能体；至少一个决策智能体是在预设环境中基于强化学习算法训练获得的，用于与预设环境进行交互输出决策；强化学习算法是决策系统根据所述预设环境自动选择的；分布式强化学习框架，用于决策模块在强化学习决策系统上的自动部署和调度。本公开的决策系统和决策方法实现了决策场景的快速迁移，提升了决策智能化能力，满足了用户快速构建新场景的需求。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能领域，特别是涉及一种强化学习决策系统及决策方法。

技术介绍

1、目前大部分的仿真仍然是通过规则进行，少部分科研机构将仿真结合人工智能技术，通过强化学习训练智能体使得决策具备智能，实现“智能化”的应用。然而上述方法存在很多问题，使得试验与真实需求相差甚远。

2、由于强化学习基于马尔科夫决策过程，因此当前仿真状态环境应是稳态的，然而实际场景极其复杂，不同单元的决策互相影响，对于任何一个决策单元，其状态空间都是非稳态的。强化学习过程中某一时刻的动作是长期决策最优目标下不断“试错”给出的当前最优决策，具备奖励延迟性，对算力要求高，而在实际场景下某一时刻的决策信息量非常大，决策多且呈现包含关系、并列关系、因果关系，如果通过一般强化学习方式计算会出现状态空间、动作空间的维数灾难，无法收敛，得不到结果。由于强化学习通过“试错”探索路径，其产生的各种决策交织在多层级、多智能体的动作空间之内，原本已经是“黑盒”的强化学习决策结论更加无法解释动作意图。且针对某一场景训练一个智能体的使用方式，使得该智能体被限定在训练场景中使用，一旦场景更换，难以实现智能体的迁移，无法提升决策智能化能力，且难以满足用户快速构建新场景的需求。

3、因此，需要构建一种能够解决上述技术问题的强化学习决策的系统及决策方法。

技术实现思路

1、本公开要解决的一个技术问题是，提供一种强化学习决策的方案。

2、根据本公开的第一个方面，提供了一种强化学习决策系统，包括：决策模块和分布式强化学习框架；

3、所述决策模块包括至少一个决策智能体；所述至少一个决策智能体是在预设环境中基于强化学习算法训练获得的，用于与预设环境进行交互输出决策；所述强化学习算法是所述决策系统根据所述预设环境自动选择的。

4、所述分布式强化学习框架，用于所述决策模块在所述强化学习决策系统上的自动部署和调度。

5、可选地，所述决策模块还包括：协议模块，用于使所述决策模块中的所述决策智能体基于所述协议模块的专家规则和/或场景约束条件输出决策。

6、可选地，所述协议模块具体包括：专家规则组件和场景约束组件；

7、所述专家规则组件，用于为所述决策智能体配置专家规则；

8、所述场景约束组件，用于基于决策场景为所述决策智能体配置场景约束条件。

9、可选地，所述决策模块还包括：

10、自动化部署模块，用于将所述决策模块和所述协议模块自动化地部署在所述分布式强化学习框架上。

11、可选地，所述的决策系统还包括：底层框架，用于为所述决策模块和所述分布式强化学习框架提供底层支持。

12、可选地，所述的决策系统还包括：环境模拟器；

13、所述环境模拟器，用于对真实环境进行仿真模拟得到虚拟环境；

14、所述决策模块，用于与所述环境模拟器仿真得到的虚拟环境进行交互产出决策。

15、可选地，所述的决策系统还包括：通信接口，用于建立所述强化学习决策系统与所述环境模拟器之间的通信连接。

16、根据本公开的第二个方面，提供了一种利用强化学习决策系统进行决策的方法，其中，所述强化学习决策系统为上文第一方面述及的强化学习决策系统为，该方法包括：根据预设环境自动选择选择训练所述强化学习决策系统的决策模块中的至少一个决策智能体的强化学习算法；

17、利用所述强化学习算法在预设环境中训练所述至少一个决策智能体，得到至少一个训练后的决策智能体；

18、利用环境模拟器对真实环境进行仿真模拟得到虚拟环境；

19、利用所述至少一个决策智能体与所述环境模拟器仿真得到的虚拟环境进行交互产出决策。

20、可选地，所述强化学习算法包括深度强化学习算法、深度强化学习算法和分层强化学习算法中的至少一种。

21、可选地，所述强化学习算法为多智能体分层强化学习算法；所述决策模块包括至少两个决策层，每一决策层包括至少一个智能体；

22、利用所述强化学习算法在预设环境中训练所述至少一个决策智能体，得到至少一个训练后的决策智能体，包括：

23、对于最高决策层，根据预设环境输出的状态信息更新最高决策层输出决策；

24、对于低于最高决策层的每一其他决策层，根据预设环境输出的状态信息和上一级决策层的决策结果更新其他决策层输出决策；

25、将最低决策层输出的决策输入至所述预设环境；

26、对于最高决策层，根据所述预设环境输出的状态信息输出最终决策结果。

27、可选地，所述至少一个决策智能体对应专家规则模型、机器学习模型、深度学习模型、强化学习模型中的至少一种。

28、根据本公开的第三个方面，提供了一种强化学习决策装置，包括：

29、自动选择模块，用于根据预设环境自动选择选择训练所述强化学习决策系统的决策模块中的至少一个决策智能体的强化学习算法；

30、训练模块，用于利用所述强化学习算法在预设环境中训练所述至少一个决策智能体，得到至少一个训练后的决策智能体；

31、环境模拟模块，用于利用环境模拟器对真实环境进行仿真模拟得到虚拟环境；

32、决策产出模块，用于利用所述至少一个决策智能体与所述环境模拟器仿真得到的虚拟环境进行交互产出决策。

33、可选地，所述训练模块使用的所述强化学习算法包括深度强化学习算法、深度强化学习算法和分层强化学习算法中的至少一种。

34、可选地，所述训练模块使用的所述强化学习算法为多智能体分层强化学习算法；所述决策模块包括至少两个决策层，每一决策层包括至少一个智能体；

35、所述训练模块，用于对所述决策模块中的最高决策层，根据预设环境输出的状态信息更新最高决策层输出决策；对低于最高决策层的每一其他决策层，根据预设环境输出的状态信息和上一级决策层的决策结果更新其他决策层输出决策；将最低决策层输出的决策输入至所述预设环境；以及对所述最高决策层，根据所述预设环境输出的状态信息输出最终决策结果。

36、根据本公开的第四个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上文第二方面述及的决策方法。

37、根据本公开的第五个方面，提供了一种计算机程序产品，包括可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上文第二方面述及的决策方法。

38、根据本公开的第六个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上文第二方面述及的决策方法。

39、本公开的强化学习决策系统包括决策模块和分布式强化学习框架，决策模块中的至少一个决策智能体可以基于开发人员配置的应用场景以及决策系统根据应用场景自动选择的强化学习算法进行自动训练，分布式强化学本文档来自技高网...

【技术保护点】

1.一种强化学习决策系统，包括：决策模块和分布式强化学习框架；

2.根据权利要求1所述的决策系统，其中，所述决策模块还包括：

3.根据权利要求2所述的决策系统，其中，所述协议模块具体包括：专家规则组件和场景约束组件；

4.根据权利要求2所述的决策系统，所述决策模块还包括：

5.根据权利要求1所述的决策系统，还包括：环境模拟器；

6.根据权利要求5所述的决策系统，还包括：

7.一种利用强化学习决策系统进行决策的方法，其中，所述强化学习决策系统为权利要求1至6中任一项所述的强化学习决策系统，该方法包括：

8.一种强化学习决策装置，包括：

9.一种计算设备，包括：

10.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求7所述的方法。

【技术特征摘要】

1.一种强化学习决策系统，包括：决策模块和分布式强化学习框架；

2.根据权利要求1所述的决策系统，其中，所述决策模块还包括：

3.根据权利要求2所述的决策系统，其中，所述协议模块具体包括：专家规则组件和场景约束组件；

4.根据权利要求2所述的决策系统，所述决策模块还包括：

5.根据权利要求1所述的决策系统，还包括：环境模拟器；

6.根据权利要求5...

【专利技术属性】
技术研发人员：李京，
申请(专利权)人：北京旗顺科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人