基于元强化学习的大规模负荷需求响应策略、系统及设备技术方案

技术编号：32185810 阅读：16 留言：0更新日期：2022-02-08 15:49

本发明专利技术涉及电网需求响应技术领域，特别涉及基于元强化学习的大规模负荷需求响应策略、系统及设备，其中，基于元强化学习的大规模负荷需求响应策略，包括构建优化模型并将所述优化模型进行转化以得到用电成本最低的初始模型；对所述初始模型进行元强化学习训练得到响应模型；通过所述响应模型得到大规模负荷需求的响应策略，以进行多用户或多设备的负荷需求响应。通过引入元强化学习的方式，不直接针对某个特定需求进行训练，而同时在多个需求响应上进行训练，从而针对所有需求的共性得到初始模型，在初始模型的基础上再单独针对特定特殊需求响应进行训练，加速训练过程，有效节省降低了在针对大规模用户需求响应训练的时间成本和经济成本。本和经济成本。本和经济成本。

全部详细技术资料下载

【技术实现步骤摘要】
基于元强化学习的大规模负荷需求响应策略、系统及设备

[0001]本专利技术涉及电网需求响应
，特别涉及基于元强化学习的大规模负荷需求响应策略、系统及设备。

技术介绍

[0002]电力供应紧张已成为经济社会生活中的主要矛盾之一，保证电力供需平衡，实现电力系统安全、可靠、经济、清洁、高效已成为经济发展和人民生活水平提高的重要保障。依托市场化改革推进与国家能源政策调整，电力网络与电力市场、电力网络与电力用户之间的协调以及交换越发紧密。需求侧资源管理成为在同样用电功能情况下，减少电量消耗、缓解缺电压力、降低供电和用电成本的重要措施。需求响应(Demand Response，简称DR)在电力市场竞争中的引入，已成为通过价格信号和激励机制加强需求侧资源在电力市场中作用的重要手段。通过需求响应进行辅助频率调节、保障系统安全运行，以及完成其他电力系统辅助服务，已逐渐成为未来电力市场发展趋势。
[0003]对于基于激励的直接负荷控制(Directloadcontrol，简称DLC)策略，目前已有众多文献进行了深入探讨。自强化学习算法出现以来，其数据驱动的特性助力电力需求响应快速发展。
[0004]然而，考虑到多用户及多种用电负荷设备，现有强化学习算法的训练过程需要与真实场景进行大量的交互，这无疑大大增加了强化学习算法使用的时间成本和经济成本，尤其是面临多用户及多种用电负荷设备大规模负荷需求响应时体现得尤为明显。

技术实现思路

[0005]为解决上述现有技术中增加强化学习使用的时间成本的不足，本专利...

【技术保护点】

【技术特征摘要】
1.一种基于元强化学习的大规模负荷需求响应策略，其特征在于：包括构建优化模型并将所述优化模型进行转化以得到用电成本最低的初始模型；对所述初始模型进行元强化学习训练得到响应模型；通过所述响应模型得到大规模负荷需求的响应策略，以进行多用户或多设备的负荷需求响应。2.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略，其特征在于：根据离散时间内用电负荷设备的约束条件和用电成本构建所述优化模型，所述约束条件包括功率平衡约束及用电负荷设备约束，所述优化模型为；其中，；其中，为电网负荷功率，λ
t
为t时刻的用电成本，和为t时刻所述用电负荷识别的连续控制信号。3.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略，其特征在于：将所述优化模型转化为马尔可夫决策过程，所述马尔可夫决策过程表示为其中，为状态集合，为动作集合，为所述优化模型的状态转移函数，为所述优化模型的奖励函数，t时刻的所述奖励函数为用电成本的相反数。4.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略，其特征在于：通过所述马尔可夫决策过程得到用电成本最低的所述初始模型，所述初始模型为在每个马尔可夫决策时刻，先获取当前状态s并根据所述状态s和所述初始模型在动作集合选择动作a，再根据状态转移函数P
i
(s
′
|s,a)获得状态s
′
和奖励r
i
＝R
i
(s,a)。5.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略，其特征在于：至少构造一个所述优化模型，所述优化模型的数量设有多个，各优化模型之间具有的相似性，先参数化所述初始模型再利用所述元强化学习训练所述初始模型。6.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略，其特征在于：参数化的所述初始模型为π(...

【专利技术属性】
技术研发人员：张颖，关朝阳，吴学超，彭晖，陈锦桂，廖晔，秦兆铭，曹军威，胡雯，
申请(专利权)人：厦门智慧电力成套新能源科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人