【技术实现步骤摘要】
基于元强化学习的大规模负荷需求响应策略、系统及设备
[0001]本专利技术涉及电网需求响应
,特别涉及基于元强化学习的大规模负荷需求响应策略、系统及设备。
技术介绍
[0002]电力供应紧张已成为经济社会生活中的主要矛盾之一,保证电力供需平衡,实现电力系统安全、可靠、经济、清洁、高效已成为经济发展和人民生活水平提高的重要保障。依托市场化改革推进与国家能源政策调整,电力网络与电力市场、电力网络与电力用户之间的协调以及交换越发紧密。需求侧资源管理成为在同样用电功能情况下,减少电量消耗、缓解缺电压力、降低供电和用电成本的重要措施。需求响应(Demand Response,简称DR)在电力市场竞争中的引入,已成为通过价格信号和激励机制加强需求侧资源在电力市场中作用的重要手段。通过需求响应进行辅助频率调节、保障系统安全运行,以及完成其他电力系统辅助服务,已逐渐成为未来电力市场发展趋势。
[0003]对于基于激励的直接负荷控制(Directloadcontrol,简称DLC)策略,目前已有众多文献进行了深入探讨。自强化学习 ...
【技术保护点】
【技术特征摘要】
1.一种基于元强化学习的大规模负荷需求响应策略,其特征在于:包括构建优化模型并将所述优化模型进行转化以得到用电成本最低的初始模型;对所述初始模型进行元强化学习训练得到响应模型;通过所述响应模型得到大规模负荷需求的响应策略,以进行多用户或多设备的负荷需求响应。2.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略,其特征在于:根据离散时间内用电负荷设备的约束条件和用电成本构建所述优化模型,所述约束条件包括功率平衡约束及用电负荷设备约束,所述优化模型为;其中,;其中,为电网负荷功率,λ
t
为t时刻的用电成本,和为t时刻所述用电负荷识别的连续控制信号。3.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略,其特征在于:将所述优化模型转化为马尔可夫决策过程,所述马尔可夫决策过程表示为其中,为状态集合,为动作集合,为所述优化模型的状态转移函数,为所述优化模型的奖励函数,t时刻的所述奖励函数为用电成本的相反数。4.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略,其特征在于:通过所述马尔可夫决策过程得到用电成本最低的所述初始模型,所述初始模型为在每个马尔可夫决策时刻,先获取当前状态s并根据所述状态s和所述初始模型在动作集合选择动作a,再根据状态转移函数P
i
(s
′
|s,a)获得状态s
′
和奖励r
i
=R
i
(s,a)。5.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略,其特征在于:至少构造一个所述优化模型,所述优化模型的数量设有多个,各优化模型之间具有的相似性,先参数化所述初始模型再利用所述元强化学习训练所述初始模型。6.根据权利要求1所述的基于元强化学习的大规模负荷需求响应策略,其特征在于:参数化的所述初始模型为π(...
【专利技术属性】
技术研发人员:张颖,关朝阳,吴学超,彭晖,陈锦桂,廖晔,秦兆铭,曹军威,胡雯,
申请(专利权)人:厦门智慧电力成套新能源科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。