基于日内多目标强化学习的梯级电站离线调度方法及系统技术方案

技术编号:34853847 阅读:34 留言:0更新日期:2022-09-08 07:54
本发明专利技术公开了基于日内多目标强化学习的梯级电站离线调度方法及系统,涉及电力系统调度技术领域,其技术方案要点是:根据日内调度场景对调度任务进行划分,得到战略任务以及兼顾任务;利用贝叶斯回归模型从日内调度的决策因子中预测未来来水和电力需求的概率分布;根据战略任务、兼顾任务和决策因子构建梯级电站调度的调度仿真系统;根据日内调度场景确定多目标的标准化回报函数,并将标准化回报函数加入调度仿真系统以实现对调度策略进行评价;根据调度策略的评价结果在调度仿真系统中训练调度策略,得到离线的调度优化模型;进行效果验证。本发明专利技术使得梯级电站的调度策略生成过程准确度较高,整体实现的可靠性较强。整体实现的可靠性较强。整体实现的可靠性较强。

【技术实现步骤摘要】
基于日内多目标强化学习的梯级电站离线调度方法及系统


[0001]本专利技术涉及电力系统调度
,更具体地说,它涉及基于日内多目标强化学习的梯级电站离线调度方法及系统。

技术介绍

[0002]梯级电站群实时调度是电力调度系统中挑战性最大的问题,首先,实时调度影响因子较多,导致调度决策维度较大;其次,实时调度面临太多外部不确定性,决策模型必须考虑影响因子本身的不确定性;最后,实时调度需要模型即时反馈,当外部环境发生变化时,模型要迅速对其做出反映。
[0003]目前,现有的实时调度模型存在很多问题:1.为追求时间效率而大量简化模型,使得模型与实际差距较大,且很难达到最优;2.现有模型没有考虑到影响因子预测本身存在的不确定性,导致模型鲁棒性较差;3.现有模型需要定时更新寻优,计算资源耗费太大,时间效率太低;4.现有模型很难处理多任务调度场景,并且无法处理具有相互冲突的多目标问题。
[0004]因此,如何研究设计一种能够克服上述缺陷的基于日内多目标强化学习的梯级电站离线调度方法及系统是我们目前急需解决的问题。

技术实现思路

[0005]为解决现有技术中的不足,本专利技术的目的是提供基于日内多目标强化学习的梯级电站离线调度方法及系统,使得梯级电站的调度策略生成过程准确度较高,整体实现的可靠性较强。
[0006]本专利技术的上述技术目的是通过以下技术方案得以实现的:
[0007]第一方面,提供了基于日内多目标强化学习的梯级电站离线调度方法,包括以下步骤:
[0008]根据日内调度场景对调度任务进行划分,得到与日调度模型相互衔接的战略任务以及日内调度需要兼顾的兼顾任务;
[0009]利用贝叶斯回归模型从日内调度的决策因子中预测未来来水和电力需求的概率分布;
[0010]根据战略任务、兼顾任务和决策因子构建梯级电站调度的调度仿真系统;
[0011]根据日内调度场景确定多目标的标准化回报函数,并将标准化回报函数加入调度仿真系统以实现对调度策略进行评价;
[0012]根据调度策略的评价结果在调度仿真系统中训练调度策略,得到离线的调度优化模型;
[0013]对决策因子进行抽样,并依据抽样结果将调度优化模型输出的优化调度策略在调度仿真系统上进行效果验证,若优化调度策略符合规定,则将离线的优化调度策略部署到生产指挥系统。
[0014]进一步的,所述调度任务依据日内调度场景的分层结构进行划分,具体划分过程为:
[0015]日内调度场景任务分为第一级目标、第二级目标和第三级目标;
[0016]第一级目标包括依据日调度模型所决策出最优的每个电站的期末水位目标、每个电站的弃水目标以及调度中心下发的每十五分钟的负荷计划;
[0017]第二级目标包括保持日内出库平稳的日内安全目标和保持坝前水位平稳的日内坝前水位;
[0018]第三级目标包括机组少调和机闸少调。
[0019]进一步的,所述电力需求在未来决策时间段内服从联合正态分布,具体表达式为:
[0020][0021]其中,表示次日15分钟频率96个时间点的负荷发电计划;N表示正态分布函数;表示次日15分钟频率96个时间点的负荷发电计划的均值;∑表示次日15分钟频率96个时间点的负荷发电计划的协方差矩阵。
[0022]进一步的,所述未来来水的分布根据梯级电站是否是首位电站进行处理,具体处理过程为:
[0023]若梯级电站是首站,则给出在决策期间的入库联合分布,具体表达式为:
[0024][0025]其中,表示次日15分钟频率96个时间点的未来来水;N表示正态分布函数;表示次日15分钟频率96个时间点的未来来水分布均值;∑1表示次日15分钟频率96个时间点的未来来水分布的协方差矩阵;
[0026]若梯级电站不是首个电站,则给出自然产流的分布。
[0027]进一步的,所述调度仿真系统依据机组出力特征、闸门开合与泄洪流量的关系以及上下游电站的出库和入库流量关系进行构建。
[0028]进一步的,所述调度仿真系统配置的主要函数包括水量平衡、NHQ曲线、库容与坝前水位的相互转换以及上下游电站间关系。
[0029]进一步的,所述标准化回报函数包括水位目标回报函数、匹配度回报函数、弃水目标达成度的回报函数、日内出库平稳函数、坝前水位平稳函数、机组少调回报函数、机闸少调回报函数。
[0030]进一步的,所述调度策略利用HER算法和TD3算法进行综合训练。
[0031]进一步的,所述优化调度策略的效果验证时考虑决策因子的路径分布和期末分布。
[0032]第二方面,提供了基于日内多目标强化学习的梯级电站离线调度系统,包括:
[0033]任务划分模块,用于根据日内调度场景对调度任务进行划分,得到与日调度模型
相互衔接的战略任务以及日内调度需要兼顾的兼顾任务;
[0034]分布计算模块,用于利用贝叶斯回归模型从日内调度的决策因子中预测未来来水和电力需求的概率分布;
[0035]仿真构建模块,用于根据战略任务、兼顾任务和决策因子构建梯级电站调度的调度仿真系统;
[0036]策略评价模块,用于根据日内调度场景确定多目标的标准化回报函数,并将标准化回报函数加入调度仿真系统以实现对调度策略进行评价;
[0037]策略优化模块,用于根据调度策略的评价结果在调度仿真系统中训练调度策略,得到离线的调度优化模型;
[0038]策略验证模块,用于对决策因子进行抽样,并依据抽样结果将调度优化模型输出的优化调度策略在调度仿真系统上进行效果验证,若优化调度策略符合规定,则将离线的优化调度策略部署到生产指挥系统。
[0039]与现有技术相比,本专利技术具有以下有益效果:
[0040]1、本专利技术考虑到未来来水预测的不确定性和未来电力计划的不确定性,依据决策因子做未来一天15分钟频率96个点的最优化梯级电站群调度策略,将日调度任务设置为日调度模型匹配的调度目标,解决了日内高频策略和日调度任务的衔接问题;同时在调度仿真系统中加载多目标的标准化回报函数,并结合评价结果在调度仿真系统中利用强化学习训练调度策略,使得调度策略迭代升级,使得梯级电站的调度策略生成过程准确度较高,整体实现的可靠性较强;
[0041]2、本专利技术采用HER算法和TD3算法相结合的方法对调度策略进行训练,有效的解决了回报稀疏问题;
[0042]3、本专利技术考虑了实际业务场景来构建基于业务逻辑的多目标的标准化回报函数,克服了由于目标本身是多维的,且目标的属性不同,部分目标是浮点型,部分目标是布尔型,还有部分目标是整型,采用欧式距离来定义实现的目标与真实目标分析不合适的问题。
附图说明
[0043]此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:
[0044]图1是本专利技术实施例中的流程图;
[0045]图2是本专利技术实施例中的系统框图。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于日内多目标强化学习的梯级电站离线调度方法,其特征是,包括以下步骤:根据日内调度场景对调度任务进行划分,得到与日调度模型相互衔接的战略任务以及日内调度需要兼顾的兼顾任务;利用贝叶斯回归模型从日内调度的决策因子中预测未来来水和电力需求的概率分布;根据战略任务、兼顾任务和决策因子构建梯级电站调度的调度仿真系统;根据日内调度场景确定多目标的标准化回报函数,并将标准化回报函数加入调度仿真系统以实现对调度策略进行评价;根据调度策略的评价结果在调度仿真系统中训练调度策略,得到离线的调度优化模型;对决策因子进行抽样,并依据抽样结果将调度优化模型输出的优化调度策略在调度仿真系统上进行效果验证,若优化调度策略符合规定,则将离线的优化调度策略部署到生产指挥系统。2.根据权利要求1所述的基于日内多目标强化学习的梯级电站离线调度方法,其特征是,所述调度任务依据日内调度场景的分层结构进行划分,具体划分过程为:日内调度场景任务分为第一级目标、第二级目标和第三级目标;第一级目标包括依据日调度模型所决策出最优的每个电站的期末水位目标、每个电站的弃水目标以及调度中心下发的每十五分钟的负荷计划;第二级目标包括保持日内出库平稳的日内安全目标和保持坝前水位平稳的日内坝前水位;第三级目标包括机组少调和机闸少调。3.根据权利要求1所述的基于日内多目标强化学习的梯级电站离线调度方法,其特征是,所述电力需求在未来决策时间段内服从联合正态分布,具体表达式为:其中,表示次日15分钟频率96个时间点的负荷发电计划;N表示正态分布函数;表示次日15分钟频率96个时间点的负荷发电计划的均值;∑表示次日15分钟频率96个时间点的负荷发电计划的协方差矩阵。4.根据权利要求1所述的基于日内多目标强化学习的梯级电站离线调度方法,其特征是,所述未来来水的分布根据梯级电站是否是首位电站进行处理,具体处理过程为:若梯级电站是首站,则给出在决策期间的入库联合分布,具体表达式为:其中,表示次日15分钟频率96个时间点的未来来水;N表示正态分布函数;表示次日15分钟频率96个时间点的未来来水分布均值;∑1表示...

【专利技术属性】
技术研发人员:罗玮顾发英朱阳黄志峰张铮
申请(专利权)人:国能大渡河大数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1