本公开涉及一种负荷协同控制方法及装置,其中负荷协同控制方法包括建立用于计算电力成本的成本模型;将成本模型表示为分布式部分可观测马尔科夫决策过程。基于所建立的分布式部分可观测马尔科夫决策过程利用强化学习方法进行训练,以获得各第一用户和各第二用户对应的目标策略,以便优化电力成本和奖赏;以及在目标场景下,基于各目标策略确定出各个第一用户和各个第二用户的负荷协同控制的动作。本公开的方法在决策时刻,仅需要用户在其动作空间选取动作进行状态转移,而不需要获取用户具体的用电隐私信息,并且能够求解得到负荷协同控制的目标动作,在满足用户用点需求的前提下,降低电网的操作成本。降低电网的操作成本。降低电网的操作成本。
【技术实现步骤摘要】
一种负荷协同控制方法及装置
[0001]本公开涉及微电网
,更具体地,涉及一种负荷协同控制方法及装置。
技术介绍
[0002]现有的技术中,以直接负荷控制方法为代表的需求响应已经在削峰填谷、降低成本等方面发挥了重要作用。然而,传统的直接负荷控制方法需要提前获知负荷的详细信息,这给用户隐私带来了威胁。例如,控制空调需要感知用户的空调使用时间以及室内温度;控制可转移负荷(电动汽车、洗碗机、干衣机等)需要获知其可调度时间范围,如电动汽车的到达时间和离开时间,而该时间往往包含了用户的位置隐私和行为隐私;此外,很多情况下用户自己也无法给出准确的时间点。因此,需要发展隐私保护的住宅负荷控制方法,在无需住宅用户的隐私信息的情况下,可以实现住宅负荷的协同控制。
技术实现思路
[0003]旨在提供一种负荷协同控制方法及装置,在不需要获取用户行为隐私的情况下,实现住宅负荷的协同控制。
[0004]在第一方面,本公开的实施例提供了一种负荷协同控制方法,用于包含多个第一用户和至少一个第二用户的孤岛电网,所述孤岛电网中的发电设备和储能设备在所述至少一个第二用户的控制下为所述多个第一用户供电,所述负荷协同控制方法包括:
[0005]建立用于计算电力成本的成本模型,所述电力成本包括所述发电设备的发电成本和储能设备的储能成本;
[0006]将所述成本模型表示为分布式部分可观测马尔科夫决策过程,其中所述分布式部分可观测马尔科夫决策过程包含第一用户的观测空间、第二用户的观测空间、所有用户的动作空间、所有用户的状态空间和奖励函数,其中各个第一用户的观测空间包括其自身的观测信息,所述第二用户的观测空间包括其控制下所供电的多个第一用户的总用能偏差的观测信息,在各决策时刻,各第一用户以及各第二用户根据其观测信息在其动作空间中选择动作来转移到目标状态,所述奖励函数用于定义各第一用户以及各第二用户转移到目标状态后的奖赏;
[0007]基于所建立的分布式部分可观测马尔科夫决策过程利用强化学习方法进行训练,以获得各第一用户和各第二用户对应的目标策略,以便优化电力成本和奖赏;以及
[0008]在目标场景下,基于各目标策略确定出各个第一用户和各个第二用户的负荷协同控制的动作。
[0009]在第二方面,本公开的实施例提供了一种能量管理装置,设置于包含多个第一用户和至少一个第二用户的孤岛电网中,所述能量管理系统包括多个第一能量管理装置以及至少一个第二能量管理装置,所述孤岛电网中的发电设备和储能设备在所述至少一个第二能量管理装置的控制下为所述多个第一用户供电,所述多个第一用户供电的用电设备在各第一能量管理装置的控制下运行;所述至少一个第一能量管理装置包括至少一个第一处理
器,所述至少一个第二能量管理装置包括至少一个第二处理器;所述至少一个第一处理器和所述至少一个第二处理器被配置为互相通信以协同执行根据本公开各实施例所述的负荷协同控制方法。
[0010]利用根据本公开的各个实施例的负荷协同控制方法,在决策时刻,仅需要用户在其动作空间选取动作进行状态转移,而不需要获取用户具体的例如空调温度设置,电动汽车的到达时间和离开时间等隐私信息,并且能够求解得到优化电力成本的各个第一用户和各个第二用户的负荷协同控制的目标动作,在满足用户用点需求的前提下,降低电网的操作成本。
附图说明
[0011]在不一定按比例绘制的附图中,相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
[0012]图1示出根据本公开实施例的孤岛电网的基本结构示意图;
[0013]图2示出根据本公开实施例的负荷协同控制的基本流程图;
[0014]图3示出根据本公开实施例的基于局部动作值函数利用强化学习确定目标动作的流程示意图;
[0015]图4示出根据本公开实施例的能量管理装置的基本结构示意图。
具体实施方式
[0016]为使本领域技术人员更好的理解本公开的技术方案,下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述,但不作为对本公开的限定。
[0017]本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素,并不排除也涵盖其他要素的可能。
[0018]本公开的实施例提供了一种负荷协同控制方法,用于包含多个第一用户100和至少一个第二用户109的孤岛电网,如图1所示,所述孤岛电网中的发电设备107和储能设备108在所述至少一个第二用户109的控制下为所述多个第一用户100供电,第一用户100可以有若干的负荷,例如空调103、电动汽车104等等,第一用户100还可以设置光伏板102为自家提供电能。发电设备107和储能设备108通过电力线缆106与各个第一用户100连接,第二用户109通过通信线缆105实现与第一用户之间的数据通信。各第一用户100可以通过家庭能量管理装置101来进行各自的家庭能量管理。如图2所示,本公开的负荷协同控制方法包括始于步骤S201,建立用于计算电力成本的成本模型,所述电力成本包括所述发电设备的发电成本和储能设备的储能成本。孤岛电网设置有发电设备和储能设备,发电设备107可以是分布式的发电设备也可以是集中式的发电设备在此不做具体限定,类似的储能设备108也可以是分布式的或者集中式的。本示例中所指的发电成本可以是例如火力发电的燃煤、设
备损耗等成本,储能成本可以是储能电池的损耗、维护等成本具体在此不做具体限定。
[0019]在步骤S202中将所述成本模型表示为分布式部分可观测马尔科夫决策过程,其中所述分布式部分可观测马尔科夫决策过程包含第一用户100的观测空间、第二用户109的观测空间、所有用户的动作空间、所有用户的状态空间和奖励函数,其中各个第一用户100的观测空间包括其自身的观测信息,所述第二用户109的观测空间包括其控制下所供电的多个第一用户100的总用能偏差的观测信息,在各决策时刻,各第一用户100以及各第二用户109根据其观测信息在其动作空间中选择动作来转移到目标状态,所述奖励函数用于定义各第一用户100以及各第二用户109转移到目标状态后的奖赏。本示例中创造性地将成本模型表示为分布式部分可观测马尔科夫决策过程,由此在决策过程,用户仅需要根据其自身的观测信息在其动作空间中选择动作来转移到目标状态,而不需要向外提供自身的隐私信息,同时第二用户的观测空间仅包括其控制下所供电的多个第一用户100的总用能偏差的观测信息,而不需要各第一用户100的隐私信息(例如电动汽车何时开始充电何时结束,空调设定多少度等),由此有效起到了隐私保护以及负荷协同控制的效本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种负荷协同控制方法,用于包含多个第一用户和至少一个第二用户的孤岛电网,所述孤岛电网中的发电设备和储能设备在所述至少一个第二用户的控制下为所述多个第一用户供电,其特征在于,所述负荷协同控制方法包括:建立用于计算电力成本的成本模型,所述电力成本包括所述发电设备的发电成本和储能设备的储能成本;将所述成本模型表示为分布式部分可观测马尔科夫决策过程,其中所述分布式部分可观测马尔科夫决策过程包含第一用户的观测空间、第二用户的观测空间、所有用户的动作空间、所有用户的状态空间和奖励函数,其中各个第一用户的观测空间包括其自身的观测信息,所述第二用户的观测空间包括其控制下所供电的多个第一用户的总用能偏差的观测信息,在各决策时刻,各第一用户以及各第二用户根据其观测信息在其动作空间中选择动作来转移到目标状态,所述奖励函数用于定义各第一用户以及各第二用户转移到目标状态后的奖赏;基于所建立的分布式部分可观测马尔科夫决策过程利用强化学习方法进行训练,以获得各第一用户和各第二用户对应的目标策略,以便优化电力成本和奖赏;以及在目标场景下,基于各目标策略确定出各个第一用户和各个第二用户的负荷协同控制的动作。2.如权利要求1所述的负荷协同控制方法,其特征在于,各第一用用户以及各第二用户根据其观测信息在其动作空间中选择动作来转移到目标状态具体包括:各第一用户根据其观测信息参考第一策略在其动作空间中选择动作来转移到目标状态,所述第一策略用于定义该第一用户根据当前时刻的观测信息与该第一用户执行的动作之间的关系;各第二用户根据其观测信息参考第二策略在其动作空间中选择动作来转移到目标状态,所述第二策略用于定义该第二用户当前时刻的观测信息与该第二用户执行的动作之间的关系,其中该第二用户当前时刻的观测信息包含各第一用户的总用能偏差。3.如权利要求2所述的负荷协同控制方法,其特征在于,基于所建立的分布式部分可观测马尔科夫决策过程利用强化学习方法进行训练包括:为用户基于强化学习定义全局状态动作值函数,所述全局状态动作值函数用于基于当前时刻各用户的状态和各用户的动作所确定的各个在后时刻的累积折扣奖励来确定期望奖励,其中,所述折扣奖励由所述奖励函数和预设折扣因子来确定,且各用户的动作服从于各自的策略;为所述全局状态动作值函数建立拟合值函数,所述拟合值函数对各用户的局部动作值函数执行累积,并在各用户的局部动作值函数引入各用户的观测历史和各用户当前的观测信息;利用强化学习确定出各用户的目标动作,使得在该目标动作下局部动作值函数的值最大,从而优化拟合值函数。4.如权利要求3所述的负荷协同控制方法,其特征在于,基于所建立的分布式部分可观测马尔科夫决策过程利用强化学习方法进行训练包括:为各用户:获取该用户的观测信息,并基于该用户的观测信息从该用户的动作空间中选取备选动
作;执行所述备选动作来确定该用户下一时刻的观测信息,并依据奖励函数确定当前时刻的奖赏;将该用户的转移过程记录在各用户的记忆池中;在所述记忆池中为各用户选取目标转移过程,并确定各用户转移过程的损失;基于所述损失通过梯度下降法更新各用户的局部动作值函数的参数;执行迭代,以获得目标策略。5.如权利要求4所述的负荷协同控制方法,其特征在于,基于该用户的观测信息从该用户的动作空间中选取备选动作包括:以概率∈在该用户的动作空间随机选取第一动作,否则,以概率1
‑
∈选取使得当前局部动作值函数取得最大...
【专利技术属性】
技术研发人员:秦兆铭,曹军威,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。