基于元强化学习的大规模负荷需求响应策略、系统及设备技术方案

技术编号:32185810 阅读:16 留言:0更新日期:2022-02-08 15:49
本发明专利技术涉及电网需求响应技术领域,特别涉及基于元强化学习的大规模负荷需求响应策略、系统及设备,其中,基于元强化学习的大规模负荷需求响应策略,包括构建优化模型并将所述优化模型进行转化以得到用电成本最低的初始模型;对所述初始模型进行元强化学习训练得到响应模型;通过所述响应模型得到大规模负荷需求的响应策略,以进行多用户或多设备的负荷需求响应。通过引入元强化学习的方式,不直接针对某个特定需求进行训练,而同时在多个需求响应上进行训练,从而针对所有需求的共性得到初始模型,在初始模型的基础上再单独针对特定特殊需求响应进行训练,加速训练过程,有效节省降低了在针对大规模用户需求响应训练的时间成本和经济成本。本和经济成本。本和经济成本。

【技术实现步骤摘要】
基于元强化学习的大规模负荷需求响应策略、系统及设备


[0001]本专利技术涉及电网需求响应
,特别涉及基于元强化学习的大规模负荷需求响应策略、系统及设备。

技术介绍

[0002]电力供应紧张已成为经济社会生活中的主要矛盾之一,保证电力供需平衡,实现电力系统安全、可靠、经济、清洁、高效已成为经济发展和人民生活水平提高的重要保障。依托市场化改革推进与国家能源政策调整,电力网络与电力市场、电力网络与电力用户之间的协调以及交换越发紧密。需求侧资源管理成为在同样用电功能情况下,减少电量消耗、缓解缺电压力、降低供电和用电成本的重要措施。需求响应(Demand Response,简称DR)在电力市场竞争中的引入,已成为通过价格信号和激励机制加强需求侧资源在电力市场中作用的重要手段。通过需求响应进行辅助频率调节、保障系统安全运行,以及完成其他电力系统辅助服务,已逐渐成为未来电力市场发展趋势。
[0003]对于基于激励的直接负荷控制(Directloadcontrol,简称DLC)策略,目前已有众多文献进行了深入探讨。自强化学习算法出现以来,其数据驱动的特性助力电力需求响应快速发展。
[0004]然而,考虑到多用户及多种用电负荷设备,现有强化学习算法的训练过程需要与真实场景进行大量的交互,这无疑大大增加了强化学习算法使用的时间成本和经济成本,尤其是面临多用户及多种用电负荷设备大规模负荷需求响应时体现得尤为明显。

技术实现思路

[0005]为解决上述现有技术中增加强化学习使用的时间成本的不足,本专利技术提供一种基于元强化学习的大规模负荷需求响应策略,可以有效节省降低了在针对大规模用户需求响应训练的时间成本和经济成本。
[0006]本专利技术提供一种基于元强化学习的大规模负荷需求响应策略,包括
[0007]构建优化模型并将所述优化模型进行转化以得到用电成本最低的初始模型;
[0008]对所述初始模型进行元强化学习训练得到响应模型;
[0009]通过所述响应模型得到大规模负荷需求的响应策略,以进行多用户或多设备的负荷需求响应。
[0010]在一实施例中,根据离散时间内用电负荷设备的约束条件和用电成本构建所述优化模型,所述约束条件包括功率平衡约束及用电负荷设备约束,所述优化模型为
[0011][0012]其中,其中,为电网负荷功率,λ
t
为t时刻的用电成本,和为t时刻所述用电负荷识别的连续控制信号。
[0013]在一实施例中,将所述优化模型转化为马尔可夫决策过程,所述马尔可夫决策过程表示为
[0014]其中,为状态集合,为动作集合,为所述优化模型的状态转移函数,为所述优化模型的奖励函数,t时刻的所述奖励函数为用电成本的相反数。
[0015]在一实施例中,通过所述马尔可夫决策过程得到用电成本最低的所述初始模型,所述初始模型为
[0016]在每个马尔可夫决策时刻,先获取当前状态s并根据所述状态s和所述初始模型在动作集合选择动作a,再根据状态转移函数P
i
(s

|s,a)获得状态s

和奖励r
i
=R
i
(s,a)。
[0017]在一实施例中,至少构造一个所述优化模型,所述优化模型的数量设有多个,各优化模型之间具有的相似性,先参数化所述初始模型再利用所述元强化学习训练所述初始模型。
[0018]在一实施例中,参数化的所述初始模型为π(a|s;θ),通过元强化学习训练所述初始模型包括以下步骤:
[0019]步骤1,初始化参数θ,并随机选取若干优化模型;
[0020]步骤2,获取第一状态并根据参数化的所述初始模型π(
·
|s
i,t
;θ)随机选取第一动作;
[0021]步骤3,执行第一动作并获得第二状态和奖励;
[0022]步骤4,将状态转移过程存档至数据库D;
[0023]步骤5,计算并根据梯度更新参数
[0024]步骤6,循环进行步骤2至步骤5,以更新参数
[0025]在一实施例中,在针对特定所述优化模型进行训练时,
[0026]步骤1,加载参数θ
i
为所述元强化学习的参数θ;
[0027]步骤2,获取第一状态并根据参数化所述初始模型π(
·
|s
i,t
;θi)随机选取第一动作;
[0028]步骤3,执行第一动作并获得第二状态和奖励;
[0029]步骤4,计算并根据梯度更新参数
[0030]在一实施例中,参数化的所述初始模型的损失为
[0031][0032]所述损失用于计算所述梯度。
[0033]本专利技术还提供一种基于元强化学习的大规模负荷需求响应系统,包括构建模块、训练模块和响应模块;
[0034]所述构建模块用于构建优化模型并将所述优化模型进行转化以得到用电成本最低的初始模型;
[0035]所述训练模块用于对所述初始模型进行元强化学习训练得到响应模型;
[0036]所述响应模块用于通过所述响应模型得到大规模负荷需求的响应策略,以进行多用户或多设备的负荷需求响应。
[0037]本专利技术还提供一种基于元强化学习的大规模负荷需求响应设备,包括至少一个处理器、及与所述处理器通信连接的存储器,其中所述存储器存储可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使所述处理器执行如上任一项所述的基于元强化学习的大规模负荷需求响应策略。
[0038]基于上述,与现有技术相比,本专利技术提供的基于元强化学习的大规模负荷需求响应策略、系统及设备,通过引入元强化学习的方式,不直接针对某个特定需求进行训练,而同时在多个需求响应上进行训练,从而针对所有需求的共性得到初始模型,在初始模型的基础上再单独针对特定特殊需求响应进行训练,加速训练过程,有效降低了算力消耗和用户数据的使用,从而节省在针对大规模用户需求响应训练的时间成本和经济成本。
[0039]本专利技术的其它特征和有益效果将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他有益效果可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0040]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;在下面描述中附图所述的位置关系,若无特别指明,皆是图示中组件绘示的方向为基准。
[0041]图1为本专利技术提供的大规模负荷需求响应策略的流程图;
[0042]图2为本专利技术提供的大规模负荷需求响应策略的架构图。
具体实施方式
[0043]为使本专利技术实施例的目的、技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元强化学习的大规模负荷需求响应策略,其特征在于:包括构建优化模型并将所述优化模型进行转化以得到用电成本最低的初始模型;对所述初始模型进行元强化学习训练得到响应模型;通过所述响应模型得到大规模负荷需求的响应策略,以进行多用户或多设备的负荷需求响应。2.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略,其特征在于:根据离散时间内用电负荷设备的约束条件和用电成本构建所述优化模型,所述约束条件包括功率平衡约束及用电负荷设备约束,所述优化模型为;其中,;其中,为电网负荷功率,λ
t
为t时刻的用电成本,和为t时刻所述用电负荷识别的连续控制信号。3.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略,其特征在于:将所述优化模型转化为马尔可夫决策过程,所述马尔可夫决策过程表示为其中,为状态集合,为动作集合,为所述优化模型的状态转移函数,为所述优化模型的奖励函数,t时刻的所述奖励函数为用电成本的相反数。4.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略,其特征在于:通过所述马尔可夫决策过程得到用电成本最低的所述初始模型,所述初始模型为在每个马尔可夫决策时刻,先获取当前状态s并根据所述状态s和所述初始模型在动作集合选择动作a,再根据状态转移函数P
i
(s

|s,a)获得状态s

和奖励r
i
=R
i
(s,a)。5.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略,其特征在于:至少构造一个所述优化模型,所述优化模型的数量设有多个,各优化模型之间具有的相似性,先参数化所述初始模型再利用所述元强化学习训练所述初始模型。6.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略,其特征在于:参数化的所述初始模型为π(...

【专利技术属性】
技术研发人员:张颖关朝阳吴学超彭晖陈锦桂廖晔秦兆铭曹军威胡雯
申请(专利权)人:厦门智慧电力成套新能源科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1