基于强化学习的超短期机组调度方法、系统、芯片及设备技术方案

技术编号：39986023 阅读：6 留言：0更新日期：2024-01-09 01:54

本发明专利技术公开了一种基于强化学习的超短期机组调度方法、系统、芯片及设备，搭建用于超短期机组调度的强化学习运行环境，强化学习运行环境的主体包括智能体和环境，强化学习运行环境的要素包括状态s、动作a、奖励r，获得强化学习运行环境参数及输入数据；采用基于强化学习的超短期机组调度策略生成方法，结合强化学习运行环境参数及输入数据完成当前时段的超短期机组调度；采用基于强化学习的超短期机组调度模型训练方法，对基于DDPG方法的超短期机组调度模型进行训练，最终得到可行的机组调度策略。本发明专利技术使用强化学习方法提高求解效率，并采用优化方法确保经济调度策略的合理性，快速寻求最优策略；能够应用于超短期机组经济调度策略制定之中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电力调度，具体涉及一种基于强化学习的超短期机组调度方法、系统、芯片及设备。

技术介绍

1、近年来，随着以光伏、风电为代表的可再生能源的蓬勃发展，电力系统的变革也在全国乃至全世界内如火如荼的开展。由于这些高比例新能源的介入，超短期时间尺度下的电力电量平衡面临着高度不确定性和多重安全风险，存在着供应与消纳两方面的压力。在超短期时间尺度上，由于电网运行方式及源荷不确定性增加，考虑到当前调度对象的飞速增长，在超短期时间尺度快速给出综合考虑各类不确定性特征电力电量平衡的方案是一项不小的挑战。因此，研究制定超短期电力电量平衡计划的方法，以提升系统的供应与消纳能力，成为了电力电量平衡领域所需重点关注的研究之一。

2、在新型电力系统建设的同时，随着强化学习理论的发展以及大数据、云计算等技术的普及，电力系统各个行业迎来了巨大冲击和深刻变革。推动建设适应新能源发展的新型智慧化调度运行体系，构建智能电网已经成为未来电网发展的必然趋势。如今，强化学习技术已经广泛应用在了负荷需求及新能源出力曲线预测、微网运行调度、需求侧响应、电气设备故障诊断、稳定性评估与应急保护、机组组合计算等电力系统领域。在超短期时间尺度，研究如何将强化学习方法同机组组合及经济调度模型进行结合，从历史数据中提取经验，利用机器学习技术加速机组组合计算，降低机组组合模型的求解复杂度，给出可以应对新型电力系统的复杂不确定性的求解方案，具有一定的研究意义。考虑到新能源及负荷的出力愈发多变，基于精准的数学模型对其不确定性进行刻画愈发困难，强化学习这种无需精确的优化模型

技术实现思路

1、本专利技术所要解决的技术问题在于针对上述现有技术中的不足，在进行超短期时间尺度下机组经济调度策略制定时，通过引入机器学习技术里的强化学习方法，提供一种基于强化学习的超短期机组调度方法、系统、芯片及设备，用于解决超短期机组经济调度求解时间长，求解复杂度高且难以考虑突发场景的技术问题。

2、本专利技术采用以下技术方案：

3、基于强化学习的超短期机组调度方法，包括以下步骤：

4、搭建用于超短期机组调度的强化学习运行环境，强化学习运行环境的主体包括智能体和环境，强化学习运行环境的要素包括状态s、动作a、奖励r，获得强化学习运行环境参数及输入数据；

5、采用基于强化学习的超短期机组调度策略生成方法，结合强化学习运行环境参数及输入数据完成当前时段的超短期机组调度；

6、采用基于强化学习的超短期机组调度模型训练方法，对基于ddpg方法的超短期机组调度模型进行训练，最终得到可行的机组调度策略。

7、具体的，用于超短期机组调度的强化学习运行环境中，智能体依据环境提供的当前步状态以及奖励给出下一步的动作，环境依据智能体提供的动作给出下一步的状态及奖励，循环往复直至回合结束；具体为：

8、输入智能体决策的输入数据，包括当前时段系统的潮流信息，与下一时段的动作区间相关的信息，下一时段的预测信息；制定强化学习框架中的奖励，包括线路负载情况奖励、有功越限惩罚、无功越限惩罚、新能源消纳情况奖励以及运行费用惩罚，得到单步运行的总奖励r。

9、进一步的，当前时段系统的潮流信息包括支路的潮流、负载率、网损，平衡机的有功、无功出力；与下一时段的动作区间相关的信息包括火电机组的出力区间以及因最短开停机限制所导致的机组不能开机或不能关机的剩余时间步数、线路若断开后回复连接所需的时间；下一时段的预测信息包括下一时段的负荷需求、新能源机组的预测出力以及线路的故障情况。

10、进一步的，单步运行的总奖励r为：

11、r＝αtlrtl+αprp+αqrq+αnerne+αoprop

12、其中，αtl、αp、αq、αne、αop为各部分奖励的系数，rtl、rp、rq、rne、rop为线路负载情况奖励、有功功率越限惩罚、无功出力越限惩罚、新能源消纳情况得分、运行费用惩罚。

13、具体的，结合强化学习运行环境参数及输入数据完成当前时段的超短期机组调度具体为：

14、构建基于ddpg方法的超短期机组调度模型，调用模型生成当前电力系统经济调度的动作，并对当前动作进行评估，得到不同机组对当前奖励的贡献程度；

15、基于得到的各机组对奖励的贡献程度，利用后处理方法对各个机组的有功出力进行调整；

16、基于有功出力调整的结果，采用启发式的方法对机组所在节点电压幅值进行调整，并将完整的动作反馈给环境，完成当前时段的超短期经济调度。

17、具体的，对基于ddpg方法的超短期机组调度模型进行训练，最终得到可行的机组经济调度策略具体为：

18、采用行为克隆的模仿学习方法对基于ddpg方法的超短期机组调度模型进行初始化，使得模型相对于随机生成网络参数的训练更加高效；

19、基于初始化，通过经验回放技术，利用原actor和critic网络以及基于现实网络生成的目标网络同环境进行交互，更新网络参数，经过若干次迭代得到训练完的模型；

20、对训练完的模型进行在线测试，经过当前时段超短期机组调度的两种调整，得到应对电力系统变化的经济调度策略，序贯决策直至回合结束输出最终的调度策略。

21、进一步的，更新网络参数具体为：

22、初始化actor和critic网络，使用行为克隆方法训练actor网络。令目标网络参数与现实网络相一致；

23、使用actor与环境进行交互，记录当前的状态、动作、奖励以及下一步的状态的数组(st,at,rt,st+1)，存入经验池；

24、抽取经验池中的数据，计算当前动作的价值qt，利用目标网络计算下一步的动作at+1及价值qt+1；

25、采用lossq＝[qt-(rt+γqt+1)]2作为critic网络的损失函数，使用更新critic网络参数；采用更新actor网络参数，qt为时刻t的价值，rt为时刻t的奖励，γ为奖励折扣率，qt+1为时刻t+1的价值，θq为critic网络的参数，α为网络学习率，θπ为actor网络的参数，αreal为现实网络的学习率，st为时刻t的状态，at为时刻t的动作；

26、更新目标网络中的actor网络和critic网络参数；

27、返回更新经验池，继续迭代直至满足收敛要求。

28、第二方面，本专利技术实施例提供了一种基于强化学习的超短期机组调度系统，其特征在于，包括：

29、环境模块，搭建用于超短期机组调度的强化学习运行环境，强化学习运行环境的主体包括智能体和环境，强化学习运行环境的要素包本文档来自技高网...

【技术保护点】

1.基于强化学习的超短期机组调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的超短期机组调度方法，其特征在于，用于超短期机组调度的强化学习运行环境中，智能体依据环境提供的当前步状态以及奖励给出下一步的动作，环境依据智能体提供的动作给出下一步的状态及奖励，循环往复直至回合结束；具体为：

3.根据权利要求2所述的基于强化学习的超短期机组调度方法，其特征在于，当前时段系统的潮流信息包括支路的潮流、负载率、网损，平衡机的有功、无功出力；与下一时段的动作区间相关的信息包括火电机组的出力区间以及因最短开停机限制所导致的机组不能开机或不能关机的剩余时间步数、线路若断开后回复连接所需的时间；下一时段的预测信息包括下一时段的负荷需求、新能源机组的预测出力以及线路的故障情况。

4.根据权利要求2所述的基于强化学习的超短期机组调度方法，其特征在于，单步运行的总奖励R为：

5.根据权利要求1所述的基于强化学习的超短期机组调度方法，其特征在于，结合强化学习运行环境参数及输入数据完成当前时段的超短期机组调度具体为：

6.根

7.根据权利要求6所述的基于强化学习的超短期机组调度方法，其特征在于，更新网络参数具体为：

8.一种基于强化学习的超短期机组调度系统，其特征在于，包括：

9.一种芯片，其特征在于，

10.一种电子设备，其特征在于，

...

【技术特征摘要】

1.基于强化学习的超短期机组调度方法，其特征在于，包括以下步骤：

【专利技术属性】
技术研发人员：王建学，任强玉，丛立章，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人