System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向多智能体强化学习的完全分布式训练方法及装置制造方法及图纸_技高网

面向多智能体强化学习的完全分布式训练方法及装置制造方法及图纸

技术编号:40642344 阅读:4 留言:0更新日期:2024-03-13 21:23
本发明专利技术公开了一种面向多智能体强化学习的完全分布式训练方法及装置。在该方法中,通过环境合理分区、马尔可夫博弈模型构建、多智能体模型构建和多智能体训练四个步骤,实现多智能体强化学习的完全分布式训练。与现有多智能体“集中训练‑分布执行”范式相比,各个智能体在训练阶段,仅需使用各自对应子环境的本地状态信息,而无需使用全局状态信息,进一步降低了各个智能体训练的成本与难度,进一步降低了各个智能体之间的通信负担,进一步提升了多智能体强化学习设计的灵活性,从而深化和扩展了多智能体强化学习的应用价值和领域。

【技术实现步骤摘要】

本专利技术涉及强化学习领域,特别是涉及一种面向多智能体强化学习的完全分布式训练方法及装置


技术介绍

1、作为与监督学习、无监督学习并列的三大机器学习范式之一,强化学习(reinforcement learning,rl)主要用于解决序列决策问题,其核心思路是智能体(agent)在与环境的持续交互中进行试错学习,在探索与利用中学习更优策略,从而最大化序列决策任务中的长期收益。强化学习作为一种机器学习范式,一般包含环境、状态、奖励、智能体和动作五大要素,从智能体数量的角度,可分为单智能体强化学习和多智能体强化学习两大类。顾名思义,单智能体强化学习(single-agent reinforcement learning,sarl)就是只包含单个智能体的强化学习,一般使用马尔可夫决策过程(markov decision process,mdp)进行建模。不同于单智能体强化学习,多智能体强化学习(multi-agentreinforcement learning,marl)包含多个智能体,旨在让多个智能体在特定环境中通过合作与竞争的方法来实现共同目标,一般使用马尔可夫博弈(markov game,mg)进行建模。总体而言,多智能体强化学习较之于单智能体强化学习,具有多项优势:能够更好地模拟现实世界的复杂环境,解决涉及多个参与者的问题,并提高系统的鲁棒性、学习效率、自适应与可扩展性。

2、然而,多个智能体的引入,也为智能体的训练带来了更高复杂度和更大困难度。当前,多智能体强化学习主要存在集中学习(centralized learning)范式、独立学习(independent learning)范式和集中训练-分布执行(centralized-trainingdecentralized-execution,ctde)范式三大类型的训练方法。具体地,1)集中学习范式简单直接地将单智能体强化学习方法推广到多智能体强化学习中,其核心思想是将所有智能体看作一个整体进行学习,该范式集中所有智能体的状态和动作构成联合状态和联合动作,并直接使用单智能体强化学习算法学习集中式控制策略。因此,该范式汇合了所有智能体的信息,暗含了智能体之间的沟通协同机制,能够较为容易地获取全局最优解。与此同时,随着环境规模和智能体数量的增长,联合状态空间和联合动作空间将呈指数级增长,以至于无法进行探索和训练,存在“维数灾难”问题。此外,受限于通信条件,在现实场景中智能体也很难获取全局状态。2)独立学习范式是单智能体强化学习方法直接推广到多智能强化学习中的另一种思路,其核心思想是假设智能体处于平稳环境中,不考虑智能体之间相互作用,将其他智能体看作环境的一部分,每个智能体直接使用单智能体强化学习算法学习各自的控制策略。在该范式中,每个智能体独立地更新各自的策略网络,即每个智能体根据各自的状态,朝着最大化全局回报的方向优化各自的策略,该范式不考虑其他智能体的策略,不需要智能体之间进行协同,适用于离散状态和动作空间中的小规模多智能体问题,具有较强的可扩展性。但是在智能体训练过程中,其他智能体的策略也在同时变化,这打破了环境平稳性的假设,使得训练的稳定性和收敛性难以保证。3)集中训练-分布执行(ctde)范式融合了集中学习范式和独立学习范式的优点,是目前最为常见且典型的多智能体强化学习范式。ctde范式在训练阶段允许智能体利用全局信息进行集中学习,在训练结束之后则执行分布式策略。具体而言,在训练阶段,假设智能体之间的信道不受物理限制,所有智能体能够获取全局信息,因而能够采用集中学习的方式进行训练;在执行阶段,每个智能体仅通过自身状态和局部信息交互选择动作。综上所述,尽管集中训练-分布执行范式相对于集中学习和独立学习范式具有诸多优点,但仍需获取全局状态信息,当环境规模进一步增长时,状态空间规模仍然庞大,这增加了各个智能体之间的通信负担,也增加了各个智能体训练的成本与难度。这些问题极大限制了集中训练-分布执行范式的应用范围,进而严重制约了多智能体强化学习的发展及应用。


技术实现思路

1、鉴于此,针对现有方法存在的问题和不足,本专利技术提出了一种面向多智能体强化学习的完全分布式训练方法及装置。

2、第一方面,本专利技术提供了一种面向多智能体强化学习的完全分布式训练方法,所述方法至少包括:环境合理分区、马尔可夫博弈模型构建、多智能体模型构建、多智能体训练四个步骤。

3、具体地,所述环境合理分区是指基于需要解决的实际问题、环境实际特性等关键因素,根据安全、经济和技术等层面的原则指标,将环境划分为多个区域。进一步地,所述区域也称为子环境。

4、进一步地,所述原则指标应根据强化学习中环境所属领域知识、专家经验等因素进行设定。比如,在电力系统分区中,应遵循各分区内应有电源或电压支撑、满足n-1准则、兼顾下级电网供电可靠性等基本原则,并可引入区域电力电量平衡、静态安全、暂态稳定、电压稳定等量化指标。

5、具体地,在环境合理分区后,即可进行马尔可夫博弈模型构建。在本专利技术的一个具体实施例中,所述马尔可夫博弈模型构建包括:

6、步骤smg1:设置马尔可夫博弈模型中智能体与所述子环境一一对应

7、步骤smg2:定义马尔可夫博弈模型中各个智能体的状态变量及状态空间

8、所述状态变量用于描述各个智能体对应子环境的状态值,第i个智能体的状态变量可表示为si,第i个智能体在交互时间步t的状态变量可表示为si,t。

9、所述状态空间是所述状态变量合法取值的全集,第i个智能体的状态空间可表示为si。

10、进一步地,定义联合状态变量。具体地,所述联合状态变量是所有智能体状态变量的集合,可表示为s=(s1,…,si,…,sn),在交互时间步t的联合状态变量可表示为st=(s1,t,…,si,t,…,sn,t),联合状态变量一般也称为全局状态变量,其中,s1,si,sn分别为智能体1、智能体i和智能体n的状态变量。

11、进一步地,定义联合状态空间。具体地,所述联合状态空间是所有智能体状态空间的集合,可表示为s=(s1,…,si,…,sn),联合状态空间一般也称为全局状态空间,其中,s1、si、sn分别为智能体1、智能体i和智能体n的状态空间。

12、步骤smg3:定义马尔可夫博弈模型中各个智能体的动作变量及动作空间

13、所述动作变量用于描述各个智能体施加于对应子环境的动作值,第i个智能体的动作变量可表示为ai,第i个智能体在交互时间步t的动作变量可表示为ai,t。

14、所述动作空间是所述动作变量合法取值的全集,第i个智能体的动作空间可表示为ai。

15、进一步地,定义联合动作变量。具体地,所述联合动作变量是所有智能体动作变量的集合,可表示为a=(a1,…,ai,…,an),在交互时间步t的联合状态变量可表示为at=(a1,t,…,ai,t,…,an,t),联合动作变量一般也称为全局动作变量,其中,a1、ai、an分别为智能体1、智能体本文档来自技高网...

【技术保护点】

1.一种面向多智能体强化学习的完全分布式训练方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述将划分的多个区域作为子环境,定义必要参数以构建马尔科夫博弈模型,包括:

3.如权利要求1所述的方法,其特征在于,所述基于所述马尔可夫博弈模型定义必要构件以建立多智能体模型,包括:

4.如权利要求3所述的方法,其特征在于,所述各个智能体策略网络的结构根据各个智能体对应子环境的因素设定,其中,所述因素至少包括规模和特性;

5.如权利要求1所述的方法,其特征在于,所述对多智能体模型进行训练,得到训练好的多智能体模型,包括:

6.如权利要求5所述的方法,其特征在于,所述各个智能体与环境进行交互包括:

7.如权利要求6所述的方法,其特征在于,所述随机抽取各个智能体的经验片段进行学习,包括:

8.一种面向多智能体强化学习的完全分布式训练系统,其特征在于,包括:

9.如权利要求8所述的系统,其特征在于,所述马尔可夫博弈模型构建单元具体用于:

10.如权利要求8所述的系统,其特征在于,所述多智能体构建单元具体用于:

11.如权利要求10所述的系统,其特征在于,所述各个智能体策略网络的结构根据各个智能体对应子环境的因素设定,其中,所述因素至少包括规模和特性;

12.如权利要求8所述的系统,其特征在于,所述多智能体训练单元具体用于:

13.如权利要求12所述的系统,其特征在于,所述多智能体训练单元中的各个智能体与环境进行交互具体实现步骤包括:

14.如权利要求13所述的系统,其特征在于,所述多智能体训练单元中的随机抽取各个智能体的经验片段进行学习的具体实现步骤包括:

15.一种计算机设备,其特征在于,包括:一个或多个处理器;

16.一种计算机可读存储介质,其特征在于,其上存有计算机程序,所述计算机程序被执行时,实现如权利要求1至7中任一项所述的一种面向多智能体强化学习的完全分布式训练方法。

...

【技术特征摘要】

1.一种面向多智能体强化学习的完全分布式训练方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述将划分的多个区域作为子环境,定义必要参数以构建马尔科夫博弈模型,包括:

3.如权利要求1所述的方法,其特征在于,所述基于所述马尔可夫博弈模型定义必要构件以建立多智能体模型,包括:

4.如权利要求3所述的方法,其特征在于,所述各个智能体策略网络的结构根据各个智能体对应子环境的因素设定,其中,所述因素至少包括规模和特性;

5.如权利要求1所述的方法,其特征在于,所述对多智能体模型进行训练,得到训练好的多智能体模型,包括:

6.如权利要求5所述的方法,其特征在于,所述各个智能体与环境进行交互包括:

7.如权利要求6所述的方法,其特征在于,所述随机抽取各个智能体的经验片段进行学习,包括:

8.一种面向多智能体强化学习的完全分布式训练系统,其特征在于,包括:

9.如权利要求8所述的系统...

【专利技术属性】
技术研发人员:李杰柴博周飞王轶申赵保华史兴华丰佳
申请(专利权)人:国网智能电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1