System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于行为克隆的新能源基地微电网优化运行方法及系统技术方案_技高网

基于行为克隆的新能源基地微电网优化运行方法及系统技术方案

技术编号:40641104 阅读:3 留言:0更新日期:2024-03-13 21:22
本发明专利技术公开了基于行为克隆的新能源基地微电网优化运行方法及系统,涉及微电网优化运行技术领域,包括根据新能源电网配置,构建新能源基地微电网系统架构;利用拉丁超立方抽样法生成若干个预训练场景数据;构建新能源基地微电网的环境模型和控制中心智能体模型;将生成的若干个预训练场景下的决策过程作为控制中心智能体的训练集,依次输入到控制中心智能体中,控制中心智能体通过行为克隆方法对训练集进行学习;将次日的预测数据输入到预训练后的控制中心智能体,智能体通过最大熵强化学习算法进行训练,形成新能源基地微电网的日前调度计划。通过实施行为克隆方法,我方发明专利技术能够从历史最优决策中学习从而在未来遇到类似场景时做出更高效的决策。

【技术实现步骤摘要】

本专利技术涉及微电网优化运行,特别是基于行为克隆的新能源基地微电网优化运行方法及系统


技术介绍

1、新能源基地是一种解决新能源并网问题、提高新能源消纳率的优秀解决方案,新能源基地主要是将风、光新能源结合储能等资源,将大规模新能源进行外送。

2、在新能源基地微电网优化运行领域,强化学习经过良好的训练可以在新能源基地微电网的不同场景下做出决策,并展现出良好的性能。在新能源基地微电网中,可能涉及多种设备,决策变量多,导致强化学习算法的动作空间和状态空间很复杂。在新能源基地微电网复杂的动作空间和状态空间下,强化学习算法的智能体要想学习到最优策略就需要从零开始,通过不断地与环境交互、获得相应奖励的方式来学习,要经历一个漫长的训练过程。

3、强化学习算法应用于新能源基地微电网的优化运行中需要程序开发者设计一个良好的环境模型,包括智能体动作空间、状态空间、环境奖励值和环境变化模型,如果环境模型设计的不好,就很容易降低强化学习智能体的学习效果,即学习到较差的策略。

4、在《控制与决策》期刊的第37卷第7期中公开了《基于深度强化学习的微电网在线优化调度》的文章,该文章提出了一种基于深度强化学习的微电网在线优化调度策略,结合拉格朗日乘子法与sac算法,提出一种新的深度强化学习算法来训练该神经网络,能够确保神经网络产生的调度决策满足网络潮流约束。但是,该文章的强化学习智能体是从初始化状态直接开始与环境交互训练,神经网络的参数从初始化状态逐渐更新,且该网络的优化结果受网络的结构参数影响较大,因此在训练效率和模型鲁棒性上存在较大的优化空间。

5、因此现有技术需要一种提高强化学习训练效率和鲁棒性的方法,来处理新能源基地微电网的优化调度问题。


技术实现思路

1、鉴于上述存在的问题,提出了本专利技术。

2、因此,本专利技术所要解决的问题在于:传统方法在环境模型设计的不好,就很容易降低强化学习智能体的学习效果,且受网络的结构参数影响较大。

3、为解决上述技术问题,本专利技术提供如下技术方案:基于行为克隆的新能源基地微电网优化运行方法,其包括,根据新能源电网配置,构建新能源基地微电网系统架构;利用拉丁超立方抽样法生成若干个预训练场景数据;构建新能源基地微电网的目标函数和约束条件,并针对生成的若干个预训练场景数据利用粒子群算法对模型进行求解,并记录每个场景下的最优解在调度周期内的决策过程;构建新能源基地微电网的环境模型和控制中心智能体模型,将目标函数替换为实时奖励函数,将约束条件替换为实时惩罚函数;将生成的若干个预训练场景下的决策过程作为控制中心智能体的训练集,依次输入到控制中心智能体中,构建行为克隆的损失函数,控制中心智能体通过行为克隆方法对训练集进行学习;将次日的预测数据输入到预训练后的控制中心智能体,智能体通过最大熵强化学习算法进行训练,形成新能源基地微电网的日前调度计划;次日控制中心智能体根据风电出力、光伏出力的波动,对调度计划进行实时修正。

4、作为本专利技术所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案,其中:所述新能源基地微电网系统架构包括新能源基地微电网系统架构由能源供给侧、能源储蓄侧;所述能源供给侧由光伏、风电和燃气轮机组成;所述能源储蓄侧由蓄电池组成;能源消纳侧由外送负荷组成。

5、作为本专利技术所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案,其中:所述生成若干个预训练场景数据包括,风电出力满足威布尔分布,光伏出力满足贝塔分布,拉丁超立方法分别根据风电出力和光伏出力的分布特性,通过分层抽样的方式生成对应的若干个场景数据;所述约束条件包括燃气轮机运行约束、蓄电池运行约束;所述决策过程包括,在调度周期内的决策过程用二元组(st,at)来描述,其中st表示t时刻观测到的环境状态,at表示t时刻控制中心智能体采取的动作;每个场景下的调度周期为24小时,所以每个预训练场景共产生24个二元组。

6、作为本专利技术所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案,其中:所述新能源基地微电网的环境模型由能源供给侧、能源储蓄侧和能源消纳侧的所有组件的数学模型组成,环境模型的观测空间表示为,

7、s=[pw,ppv,le,pgt_lasttime,ρbuye,ees]

8、其中,pw表示为风电出力,ppv表示为光伏出力;le表示为外送负荷,

9、pgt_lasttime表示为燃气轮机出力;ρbuye表示为新能源基地微电网购电电价;ees表示为蓄电池的蓄电量;所述控制中心智能体为新能源基地微电网的控制中心构成,其动作空间表示为,

10、

11、其中,表示为蓄电池放或充电量,与最大放或充电功率的比值,当取正值时,表示放电,否则表示充电;表示为燃气轮机出力与燃气轮机最大输出功率的比值。

12、作为本专利技术所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案,其中:所述奖励函数表示为,

13、

14、

15、

16、

17、其中,表示售电收益,表示购电成本,表示燃气轮机发电成本,表示污染排放成本,表示二氧化碳排放成本,表示控制中心智能体的动作越限惩罚,表示为燃气轮机的爬坡越限惩罚,表示为蓄电池的蓄电量越限惩罚,ρgt表示为燃气轮机越限的单位惩罚系数,和分别表示为燃气机组越爬坡功率越上限和爬坡功率越下限的0-1变量,ptgt表示燃气机组的发电功率,表示燃气机组的功率爬坡上限,表示燃气机组的功率爬坡下限,ρes表示为蓄电池蓄电量越限的单位惩罚系数,和分别表示为蓄电池蓄电量越上限和蓄电量越下限的0-1变量,表示蓄电池的蓄电量上限,表示蓄电池的蓄电量下限,表示蓄电池的蓄电量。

18、作为本专利技术所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案,其中:所述对训练集进行学习包括,通过粒子群算法得出每个预训练场景下的最优解在调度周期内的决策过程(s1,a1),…,(st,at),…,(s24,a24),每个二元组中的动作at即粒子群算法在状态st下做出的动作,也是控制中心智能体做出的动作,将每个二元组的st和at作为控制中心智能体预训练的输入和标签;所述行为克隆包括,从生成的若干个预训练场景中随机抽样,记抽到的序号为i;设当前控制中心智能体的策略网络参数为θ,把st和at作为输入,然后计算梯度,通过梯度下降的方式更新控制中心智能体的网络参数更新策略网络参数表示为:

19、

20、其中,β表示学习率;表示梯度;重复梯度下降迭代,直至算法收敛结束此流程。

21、作为本专利技术所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案,其中:所述智能体通过最大熵强化学习算法进行训练包括,控制中心智能体同时学习一个策略网络和两个动作价值网络,并且在策略网络和动作价值网络中引入熵正则项表示为,

22、h(π(·|st))=-eπlogπ(·|st)

本文档来自技高网...

【技术保护点】

1.基于行为克隆的新能源基地微电网优化运行方法,其特征在于:包括,

2.如权利要求1所述的基于行为克隆的新能源基地微电网优化运行方法及系统,其特征在于:所述新能源基地微电网系统架构包括新能源基地微电网系统架构由能源供给侧、能源储蓄侧;所述能源供给侧由光伏、风电和燃气轮机组成;所述能源储蓄侧由蓄电池组成;能源消纳侧由外送负荷组成。

3.如权利要求2所述的基于行为克隆的新能源基地微电网优化运行方法,其特征在于:所述生成若干个预训练场景数据包括,风电出力满足威布尔分布,光伏出力满足贝塔分布,拉丁超立方法分别根据风电出力和光伏出力的分布特性,通过分层抽样的方式生成对应的若干个场景数据;

4.如权利要求3所述的基于行为克隆的新能源基地微电网优化运行方法,其特征在于:所述新能源基地微电网的环境模型由能源供给侧、能源储蓄侧和能源消纳侧的所有组件的数学模型组成,环境模型的观测空间表示为,

5.如权利要求4所述的基于行为克隆的新能源基地微电网优化运行方法,其特征在于:所述奖励函数表示为,

6.如权利要求5所述的基于行为克隆的新能源基地微电网优化运行方法,其特征在于:所述对训练集进行学习包括,通过粒子群算法得出每个预训练场景下的最优解在调度周期内的决策过程(s1,a1),…,(st,at),…,(s24,a24),每个二元组中的动作at即粒子群算法在状态st下做出的动作,也是控制中心智能体做出的动作,将每个二元组的st和at作为控制中心智能体预训练的输入和标签;

7.如权利要求6所述的基于行为克隆的新能源基地微电网优化运行方法,其特征在于:所述智能体通过最大熵强化学习算法进行训练包括,控制中心智能体同时学习一个策略网络和两个动作价值网络,并且在策略网络和动作价值网络中引入熵正则项表示为,

8.一种采用如权利要求1~7任一所述的基于行为克隆的新能源基地微电网优化运行方法的系统,其特征在于:包括系统架构设计与预训练模块、模型建立与预训练模块和智能控制与实时调度模块;

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于行为克隆的新能源基地微电网优化运行方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于行为克隆的新能源基地微电网优化运行方法的步骤。

...

【技术特征摘要】

1.基于行为克隆的新能源基地微电网优化运行方法,其特征在于:包括,

2.如权利要求1所述的基于行为克隆的新能源基地微电网优化运行方法及系统,其特征在于:所述新能源基地微电网系统架构包括新能源基地微电网系统架构由能源供给侧、能源储蓄侧;所述能源供给侧由光伏、风电和燃气轮机组成;所述能源储蓄侧由蓄电池组成;能源消纳侧由外送负荷组成。

3.如权利要求2所述的基于行为克隆的新能源基地微电网优化运行方法,其特征在于:所述生成若干个预训练场景数据包括,风电出力满足威布尔分布,光伏出力满足贝塔分布,拉丁超立方法分别根据风电出力和光伏出力的分布特性,通过分层抽样的方式生成对应的若干个场景数据;

4.如权利要求3所述的基于行为克隆的新能源基地微电网优化运行方法,其特征在于:所述新能源基地微电网的环境模型由能源供给侧、能源储蓄侧和能源消纳侧的所有组件的数学模型组成,环境模型的观测空间表示为,

5.如权利要求4所述的基于行为克隆的新能源基地微电网优化运行方法,其特征在于:所述奖励函数表示为,

6.如权利要求5所述的基于行为克隆的新能源基地微电网优化运行方法,其特征在于:所述对训练集进行学习包括,通过粒子群算法得出每个预训...

【专利技术属性】
技术研发人员:刘文霞莫明山何向刚胡彬马蕊胡江罗文雲娄素华奚泽立龙家焕罗洋秦柯王寅代江唐学用
申请(专利权)人:贵州电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1