基于日内多目标强化学习的梯级电站离线调度方法及系统技术方案

技术编号:34853847 阅读:38 留言:0更新日期:2022-09-08 07:54
本发明专利技术公开了基于日内多目标强化学习的梯级电站离线调度方法及系统,涉及电力系统调度技术领域,其技术方案要点是:根据日内调度场景对调度任务进行划分,得到战略任务以及兼顾任务;利用贝叶斯回归模型从日内调度的决策因子中预测未来来水和电力需求的概率分布;根据战略任务、兼顾任务和决策因子构建梯级电站调度的调度仿真系统;根据日内调度场景确定多目标的标准化回报函数,并将标准化回报函数加入调度仿真系统以实现对调度策略进行评价;根据调度策略的评价结果在调度仿真系统中训练调度策略,得到离线的调度优化模型;进行效果验证。本发明专利技术使得梯级电站的调度策略生成过程准确度较高,整体实现的可靠性较强。整体实现的可靠性较强。整体实现的可靠性较强。

【技术实现步骤摘要】
基于日内多目标强化学习的梯级电站离线调度方法及系统


[0001]本专利技术涉及电力系统调度
,更具体地说,它涉及基于日内多目标强化学习的梯级电站离线调度方法及系统。

技术介绍

[0002]梯级电站群实时调度是电力调度系统中挑战性最大的问题,首先,实时调度影响因子较多,导致调度决策维度较大;其次,实时调度面临太多外部不确定性,决策模型必须考虑影响因子本身的不确定性;最后,实时调度需要模型即时反馈,当外部环境发生变化时,模型要迅速对其做出反映。
[0003]目前,现有的实时调度模型存在很多问题:1.为追求时间效率而大量简化模型,使得模型与实际差距较大,且很难达到最优;2.现有模型没有考虑到影响因子预测本身存在的不确定性,导致模型鲁棒性较差;3.现有模型需要定时更新寻优,计算资源耗费太大,时间效率太低;4.现有模型很难处理多任务调度场景,并且无法处理具有相互冲突的多目标问题。
[0004]因此,如何研究设计一种能够克服上述缺陷的基于日内多目标强化学习的梯级电站离线调度方法及系统是我们目前急需解决的问题。/>
技术实现思路
...

【技术保护点】

【技术特征摘要】
1.基于日内多目标强化学习的梯级电站离线调度方法,其特征是,包括以下步骤:根据日内调度场景对调度任务进行划分,得到与日调度模型相互衔接的战略任务以及日内调度需要兼顾的兼顾任务;利用贝叶斯回归模型从日内调度的决策因子中预测未来来水和电力需求的概率分布;根据战略任务、兼顾任务和决策因子构建梯级电站调度的调度仿真系统;根据日内调度场景确定多目标的标准化回报函数,并将标准化回报函数加入调度仿真系统以实现对调度策略进行评价;根据调度策略的评价结果在调度仿真系统中训练调度策略,得到离线的调度优化模型;对决策因子进行抽样,并依据抽样结果将调度优化模型输出的优化调度策略在调度仿真系统上进行效果验证,若优化调度策略符合规定,则将离线的优化调度策略部署到生产指挥系统。2.根据权利要求1所述的基于日内多目标强化学习的梯级电站离线调度方法,其特征是,所述调度任务依据日内调度场景的分层结构进行划分,具体划分过程为:日内调度场景任务分为第一级目标、第二级目标和第三级目标;第一级目标包括依据日调度模型所决策出最优的每个电站的期末水位目标、每个电站的弃水目标以及调度中心下发的每十五分钟的负荷计划;第二级目标包括保持日内出库平稳的日内安全目标和保持坝前水位平稳的日内坝前水位;第三级目标包括机组少调和机闸少调。3.根据权利要求1所述的基于日内多目标强化学习的梯级电站离线调度方法,其特征是,所述电力需求在未来决策时间段内服从联合正态分布,具体表达式为:其中,表示次日15分钟频率96个时间点的负荷发电计划;N表示正态分布函数;表示次日15分钟频率96个时间点的负荷发电计划的均值;∑表示次日15分钟频率96个时间点的负荷发电计划的协方差矩阵。4.根据权利要求1所述的基于日内多目标强化学习的梯级电站离线调度方法,其特征是,所述未来来水的分布根据梯级电站是否是首位电站进行处理,具体处理过程为:若梯级电站是首站,则给出在决策期间的入库联合分布,具体表达式为:其中,表示次日15分钟频率96个时间点的未来来水;N表示正态分布函数;表示次日15分钟频率96个时间点的未来来水分布均值;∑1表示...

【专利技术属性】
技术研发人员:罗玮顾发英朱阳黄志峰张铮
申请(专利权)人:国能大渡河大数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1