面向多智能体强化学习的完全分布式训练方法及装置制造方法及图纸

技术编号：40642344 阅读：4 留言：0更新日期：2024-03-13 21:23

本发明专利技术公开了一种面向多智能体强化学习的完全分布式训练方法及装置。在该方法中，通过环境合理分区、马尔可夫博弈模型构建、多智能体模型构建和多智能体训练四个步骤，实现多智能体强化学习的完全分布式训练。与现有多智能体“集中训练‑分布执行”范式相比，各个智能体在训练阶段，仅需使用各自对应子环境的本地状态信息，而无需使用全局状态信息，进一步降低了各个智能体训练的成本与难度，进一步降低了各个智能体之间的通信负担，进一步提升了多智能体强化学习设计的灵活性，从而深化和扩展了多智能体强化学习的应用价值和领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及强化学习领域，特别是涉及一种面向多智能体强化学习的完全分布式训练方法及装置。

技术介绍

1、作为与监督学习、无监督学习并列的三大机器学习范式之一，强化学习(reinforcement learning,rl)主要用于解决序列决策问题，其核心思路是智能体(agent)在与环境的持续交互中进行试错学习,在探索与利用中学习更优策略，从而最大化序列决策任务中的长期收益。强化学习作为一种机器学习范式，一般包含环境、状态、奖励、智能体和动作五大要素，从智能体数量的角度，可分为单智能体强化学习和多智能体强化学习两大类。顾名思义，单智能体强化学习(single-agent reinforcement learning，sarl)就是只包含单个智能体的强化学习，一般使用马尔可夫决策过程(markov decision process,mdp)进行建模。不同于单智能体强化学习，多智能体强化学习(multi-agentreinforcement learning，marl)包含多个智能体，旨在让多个智能体在特定环境中通过合作与竞争的方法来实现共同目标，一般使用马尔可夫博弈(markov game,mg)进行建模。总体而言，多智能体强化学习较之于单智能体强化学习，具有多项优势：能够更好地模拟现实世界的复杂环境，解决涉及多个参与者的问题，并提高系统的鲁棒性、学习效率、自适应与可扩展性。

2、然而，多个智能体的引入，也为智能体的训练带来了更高复杂度和更大困难度。当前，多智能体强化学习主要存在集中学习(centralized lea

技术实现思路

1、鉴于此，针对现有方法存在的问题和不足，本专利技术提出了一种面向多智能体强化学习的完全分布式训练方法及装置。

2、第一方面，本专利技术提供了一种面向多智能体强化学习的完全分布式训练方法，所述方法至少包括：环境合理分区、马尔可夫博弈模型构建、多智能体模型构建、多智能体训练四个步骤。

3、具体地，所述环境合理分区是指基于需要解决的实际问题、环境实际特性等关键因素，根据安全、经济和技术等层面的原则指标，将环境划分为多个区域。进一步地，所述区域也称为子环境。

4、进一步地，所述原则指标应根据强化学习中环境所属领域知识、专家经验等因素进行设定。比如，在电力系统分区中，应遵循各分区内应有电源或电压支撑、满足n-1准则、兼顾下级电网供电可靠性等基本原则，并可引入区域电力电量平衡、静态安全、暂态稳定、电压稳定等量化指标。

5、具体地，在环境合理分区后，即可进行马尔可夫博弈模型构建。在本专利技术的一个具体实施例中，所述马尔可夫博弈模型构建包括：

6、步骤smg1：设置马尔可夫博弈模型中智能体与所述子环境一一对应

7、步骤smg2：定义马尔可夫博弈模型中各个智能体的状态变量及状态空间

8、所述状态变量用于描述各个智能体对应子环境的状态值，第i个智能体的状态变量可表示为si，第i个智能体在交互时间步t的状态变量可表示为si,t。

9、所述状态空间是所述状态变量合法取值的全集，第i个智能体的状态空间可表示为si。

10、进一步地，定义联合状态变量。具体地，所述联合状态变量是所有智能体状态变量的集合，可表示为s＝(s1,…,si,…,sn)，在交互时间步t的联合状态变量可表示为st＝(s1,t,…,si,t,…,sn,t)，联合状态变量一般也称为全局状态变量，其中，s1,si,sn分别为智能体1、智能体i和智能体n的状态变量。

11、进一步地，定义联合状态空间。具体地，所述联合状态空间是所有智能体状态空间的集合，可表示为s＝(s1,…,si,…,sn)，联合状态空间一般也称为全局状态空间，其中，s1、si、sn分别为智能体1、智能体i和智能体n的状态空间。

12、步骤smg3：定义马尔可夫博弈模型中各个智能体的动作变量及动作空间

13、所述动作变量用于描述各个智能体施加于对应子环境的动作值，第i个智能体的动作变量可表示为ai，第i个智能体在交互时间步t的动作变量可表示为ai,t。

14、所述动作空间是所述动作变量合法取值的全集，第i个智能体的动作空间可表示为ai。

15、进一步地，定义联合动作变量。具体地，所述联合动作变量是所有智能体动作变量的集合，可表示为a＝(a1,…,ai,…,an)，在交互时间步t的联合状态变量可表示为at＝(a1,t,…,ai,t,…,an,t)，联合动作变量一般也称为全局动作变量，其中，a1、ai、an分别为智能体1、智能体本文档来自技高网...

【技术保护点】

1.一种面向多智能体强化学习的完全分布式训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将划分的多个区域作为子环境，定义必要参数以构建马尔科夫博弈模型，包括：

3.如权利要求1所述的方法，其特征在于，所述基于所述马尔可夫博弈模型定义必要构件以建立多智能体模型，包括：

4.如权利要求3所述的方法，其特征在于，所述各个智能体策略网络的结构根据各个智能体对应子环境的因素设定，其中，所述因素至少包括规模和特性；

5.如权利要求1所述的方法，其特征在于，所述对多智能体模型进行训练，得到训练好的多智能体模型，包括：

6.如权利要求5所述的方法，其特征在于，所述各个智能体与环境进行交互包括：

7.如权利要求6所述的方法，其特征在于，所述随机抽取各个智能体的经验片段进行学习，包括：

8.一种面向多智能体强化学习的完全分布式训练系统，其特征在于，包括：

9.如权利要求8所述的系统，其特征在于，所述马尔可夫博弈模型构建单元具体用于：

10.如权利要求8所述的系统，其特

11.如权利要求10所述的系统，其特征在于，所述各个智能体策略网络的结构根据各个智能体对应子环境的因素设定，其中，所述因素至少包括规模和特性；

12.如权利要求8所述的系统，其特征在于，所述多智能体训练单元具体用于：

13.如权利要求12所述的系统，其特征在于，所述多智能体训练单元中的各个智能体与环境进行交互具体实现步骤包括：

14.如权利要求13所述的系统，其特征在于，所述多智能体训练单元中的随机抽取各个智能体的经验片段进行学习的具体实现步骤包括：

15.一种计算机设备，其特征在于，包括：一个或多个处理器；

16.一种计算机可读存储介质，其特征在于，其上存有计算机程序，所述计算机程序被执行时，实现如权利要求1至7中任一项所述的一种面向多智能体强化学习的完全分布式训练方法。

...

【技术特征摘要】