一种基于智能电网的多智能体深度强化学习代理方法技术

技术编号:23632380 阅读:75 留言:0更新日期:2020-04-01 00:44
本发明专利技术适用于电力自动化控制技术领域,提供了一种基于智能电网的多智能体深度强化学习代理方法,包括:S1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新;S2、根据消费者和生产者的种类建立“外部竞争,内部合作”的多智能体代理;S3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数。神经网络的输入层可以接受刻画状态的特征的值的直接输入,而Q‑table需要将特征值离散化来减小状态空间。

A multi-agent deep reinforcement learning agent method based on Smart Grid

【技术实现步骤摘要】
【国外来华专利技术】一种基于智能电网的多智能体深度强化学习代理方法
本专利技术属于电力自动化控制
,尤其涉及一种基于智能电网的多智能体深度强化学习代理方法。
技术介绍
智能电网是指使用一系列数字化通讯技术实现电网现代化[1][2]。一个国家的经济、国防安全甚至居民的安全都依赖于电网的可靠性,在实际运行中,智能电网不仅能够方便用户实时选择相应的电力套餐,还能够积极调配电力资源,实现电力的平衡供应。电网能够对市场波动做出实时调整与反馈,实现双向的信息沟通服务和全面的电网状况感知,是21世纪现代化的重要组成部分。以前电网技术主要设计为单向地从大型集中式发电厂向家庭和工业设施等分布式的消费者供电。最近,智能电网一个比较热门的研究主题便是预测用户的电力需求,从而预先调整电价和竞购策略实现代理收益的最大化[3]。同时,代理机制也是智能电网设计的另一个核心,通过代理机制,智能电网在本地生产者、本地消费者、大型发电厂和其他代理之间统筹安排,运用市场的调节机制,实现多方共赢。而其中的一个关键性问题就是实现电网在消费者和本地的风力发电和太阳能发电的小型生产者之间的双向交流,Reddy等人[4]最早提出了使用强化学习框架来为本地电网设计代理作为这个问题的解决方案。强化学习框架的一个关键性的要素是状态空间,从手工构造的特征中学习策略[4],但是这样限制了代理能够容纳的经济信号的数量,也限制了环境改变时代理吸收新的信号的能力。强化学习已经被运用到电子商务领域来解决很多实际问题,主要做法是通过智能体与环境交互学习最优的策略,例如帕尔多等人[5]就基于强化学习的提出了一种数据驱动的方法来设计电子竞拍。在电力领域,强化学习被用来研究批发市场交易策略[6]或者帮助建立物理控制系统。电力批发应用的例子包括[7],主要研究了电力批发拍卖的竞价策略,而Ramavajjala等人[8]研究Next State Policy Iteration(NSPI)作为对Least Squares Policy Iteration(LSPI)[9]的扩展,并展示了他们拓展对风力发电预先交付承诺问题的好处。强化学习的物理控制应用包括电网的负载和频率控制以及自主监控应用,例如[10]。但是,之前关于电网代理的工作大多对电网环境的设定较为理想化,一方面是使用了大量的简单设定来模拟复杂的电网运行机制,另一方面在设计算法时对环境提供的信息高度抽象,损失了许多重要的细节,造成决策的不精确。另一方面,智能电网中的客户表现出各种电力消耗或生产模式。这表明我们需要为不同类型的客户制定不同的定价策略。遵循这个想法,零售代理可以被视为多智能体系统,因为每个代理负责为特定类别的电力消费者或生产者定价。例如,Wang等人在其代理框架为每种客户分配一个独立的定价代理[23]。然而,作者为不同的客户使用独立的强化学习过程,并将整个智能体的利润视为每个代理的即时回报。它并不区分每个智能体对代理利润的单独贡献,因此不会激励代理去学习最佳策略。强化学习,和传统的机器学习不同,是在一种通过不断的与环境交互来逐渐学习到某种让累积奖励最大化的策略的过程[14]。强化学习模拟人的认知过程,具有广泛性,在许多学科中被研究,比如博弈论和控制论。强化学习让智能体从环境中学习策略,而环境一般被设定为一个马尔科夫决策过程(MDP)[15],同时许多算法在这个设定中运用了动态规划的技术[16][17][18]。基本的强化学习模型包括:一系列的环境和智能体状态S={s1;s2;…;sn};一系列的智能体动作A={a1;a2;…;an};描述状态之间转移函数δ(s,a)→s′;奖励函数r(s,a)。在许多工作中,如果智能体被假定能够观察到现在时刻的环境状态,称之为全部可观察,反之即为部分可观察。一个基于强化学习的智能体在离散的时间步中和环境交流。如图2-1,在每次时刻t,智能体获得一个通常包括这个时刻奖励rt的观察,然后从可选的动作中选择一个动作a,接下来这个动作作用于环境,环境在作用下到达一个新的状态st+1,智能体获得新的时刻的奖励tt+1,周而复始。基于强化学习的多智体在与环境交互中逐渐学习到使得累积奖励最大化的策略π:S→A。为了学习到接近最优,智能体必须长时间地学习调整策略。强化学习的基本设定和学习过程非常适用于电网领域。关于如何找到最优策略,我们在这里介绍值函数方法。值函数方法试图通过维持对一些策略的一系列期望回报的估计找到一种策略最大化回报。为了正式定义最优,我们定义一种策略的值为:Vπ(s)=E[R|s,π]     (2-1)R代表从初始状态s开始遵循策略π获得的随机回报。定义V*(s)作为Vπ(s)的最大的可能值:V*(s)=maxπVπ(s)     (2-2)能够在每一个状态实现这些最优值的策略称之为最优策略。虽然状态值足够定义最优,定义动作值也是有用的。给定一个状态s,一个动作a和一个策略π,在策略π下的(s,a)对的动作值被定义为:Qπ(s,a)=E[R|s,a,π]  (2-3)R代表的是在状态s下先采取动作a再遵循策略π获得的累积奖励。从MDP的理论中可知,如果给定最优策略的Q值,那我们总是可以通过简单的选择每次状态中值最高的动作来确定最优动作。这样的最优策略的动作值函数被表示为Q*。知道最优动作值就足够知道如何实现最优。当环境的转移函数和奖励函数都是未知的时候,我们可以使用Q-learning来升级动作值函数:Qt(s,a)←(1-αt)Qt-1(s,a)+αt[rt+γmaxa′Qt-1(s′,a′)  (2-4)其中,αt是学习率,rt是当前时刻的奖励,γ是折扣因子。每一次与环境交互,升级一次当前的动作值Qt(s,a),保留一部分上一时刻的该状态和动作下的Q值,根据获得的当前时刻的奖励和到达的新的状态重新计算Q(s,a),和之前的部分经验一起组合作为该时刻新的动作值。人工神经网络,是一种是用在机器学习、计算机科学和其他研究领域中的计算模型[19][20]。人工神经网络基于大量相互连接的基本单元—人工神经元。一般地,每一层的人工神经元相互连接,信号从第一层输入层输入,到最后一层输出层输出。现在的深度学习项目一般有上千到上百万个神经节点和数以百万计的连接。人工神经网络的目标是以像人类一样的方式解决问题,虽然有些种类的神经网络更加抽象。神经网络中的网络表示每个系统中不同层之间人工神经元的连接。一个典型的人工神经网络由三种类型的参数定义:不同层神经元的连接方式;这些连接中的权重,权重可在后面的学习过程中升级;将一个神经元的加权输入转换本文档来自技高网...

【技术保护点】
一种基于智能电网的多智能体深度强化学习代理方法,其特征在于,所述多智能体深度强化学习代理方法包括以下步骤:/nS1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新;/nS2、根据消费者和生产者的种类建立“外部竞争,内部合作”的多智能体代理;/nS3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数,其函数式:/n

【技术特征摘要】
【国外来华专利技术】一种基于智能电网的多智能体深度强化学习代理方法,其特征在于,所述多智能体深度强化学习代理方法包括以下步骤:
S1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新;
S2、根据消费者和生产者的种类建立“外部竞争,内部合作”的多智能体代理;
S3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数,其函数式:

其中,C表示消费者所在的类别,P表示生产者所在的类别,
表示代理B
k内部的智能体,i∈{C
1,C
2,P
1,P
2},κ
t,C表示某类消费者在时刻t消耗的电量,κ
t,P表示某类生产者在时刻t生产的电量,
是计算单体利润时不平衡部分费用。



根据权利要求1所述的多智能体深度强化学习代理方法,其特征在于,所述步骤S1中还包括以下步骤:
S11、对神经网络的参数进行初始化处理;
S12、在运行周期中对每个周期开始时对状态值进行初始化;
S13、利用概率对状态值进行选择或选择当前状态下动作最大动作值;
S14、执行选择的动作值并获得奖励后进入下...

【专利技术属性】
技术研发人员:侯韩旭郝建业杨耀东
申请(专利权)人:东莞理工学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1