一种含新能源电网各区域的协同控制方法、智能体和介质技术

技术编号:38862347 阅读:22 留言:0更新日期:2023-09-17 10:04
本发明专利技术提供了一种含新能源电网各区域的协同控制方法、智能体和介质,包括:获取含新能源电网各区域的运行信息;基于运行信息,利用预设的第一算法生成运行信息对应的控制信号进行各区域功率和频率的协同控制;第一算法基于双Q学习算法通过引入权重参数并融入延时更新策略设定;运行信息包括控制误差、电网频率偏差和控制性能指标;本发明专利技术在双Q算法的基础上引入权重思想,可在不同计量法中进行权衡,避免强化学习算法的高估与低估问题,在含新能源电网的强随机环境中形成更精确、误差更小的控制信号,从而使电网控制性能更优,有效解决新能源并网带来的强随机扰动问题;在双Q算法的基础上融入延时更新策略,提升算法更新效率,加快收敛速度。加快收敛速度。加快收敛速度。

【技术实现步骤摘要】
一种含新能源电网各区域的协同控制方法、智能体和介质


[0001]本专利技术属于电力系统自动发电控制技术,具体涉及一种含新能源电网各区域的协同控制方法、智能体和介质。

技术介绍

[0002]新能源的随机特性严重威胁了多区域电网间的协同控制和安全稳定运行,诸如电压越限、功率波动、频率失稳等一系列强随机扰动问题亟待解决。自动发电控制(automatic generation control,AGC)是能量管理系统(EMS)的重要组成部分,在调节电网有功功率、频率和维持电网安全稳定运行等方面一直发挥着重要作用,通常利用电网中的AGC智能体实现上述功能。但由于新能源分布较为分散,对各区域电网间的信息交互灵活度和协同控制程度要求较高,而传统集中式AGC系统又总是只优先保证自身区域控制性能达到最优化,各区域间信息协同控制程度较低,因此将传统集中式AGC作为电网调度的重要手段已经难以满足高比例新能源并网模式下控制性能的需求。近年来,已有许多学者致力于分布式AGC控制方法研究,并将强化学习、深度学习、自适应控制、神经网络、滑模结构控制等引入分布式AGC控制器(即智能体)中,提出了一系列分布式AGC算法。其中,基于马尔可夫决策过程的强化学习不需依赖系统先验知识,在与环境交互的过程中可通过反复探索与试错来不断调整和优化策略以满足期望回报,从而获取序列问题最优解。且由于其奖励函数相对易于设计,故基于强化学习的控制算法在决策、自学习和自优化等方面所具的有强大优势使其在分布式AGC模式下得到了广泛应用。还有学者提出面向多区域能源互联的多智能体强化学习,以快速获取AGC过程中多区域协同最优解,加速AGC响应速度,优化AGC系统的控制性能。但这种强化学习算法在探索过程中总是存在动作值的“高估现象”,从而导致决策质量低。也有学者在基于双估计量法的双Q学习算法(doubt Q,DQ)的基础上融入多步回溯Q(λ)算法和资格迹,提出了DQ(σ,λ)算法,在获取分布式多区域协同的同时,有效避免了算法动作探索值的高估现象。但这种方法在解决了动作探索值高估问题的同时,又不可避免地产生了负偏差,出现对动作值的“低估现象”,同样不利于智能体探索到最优策略。
[0003]现有的各种强化学习算法,在探索过程中总是存在动作值的“高估”或“低估”现象,导致决策质量低,不利于智能体探索到最优策略。但动作探索值的高估偏差和低估偏差并不是严格有害的,在高值低风险情况下,高估偏差可以促进探索,在低值高风险情况下,低估偏差可以规避风险。因此,需要提出一种更合理的含新能源电网的协同控制方法。

技术实现思路

[0004]为克服上述现有技术的不足,本专利技术提出一种含新能源电网各区域的协同控制方法,包括:
[0005]获取含新能源电网各区域的运行信息;
[0006]基于所述运行信息,利用预设的第一算法生成所述运行信息对应的控制信号进行各区域功率和频率的协同控制;
[0007]其中,所述第一算法基于双Q学习算法通过引入权重参数并融入延时更新策略设定;
[0008]所述运行信息包括控制误差、电网频率偏差和预设的控制性能指标。
[0009]优选的,所述第一算法的设定,包括:
[0010]以所述运行信息为状态量,并以所述状态量和所述状态量对应的奖励值为输入,以所述状态量对应的动作值为输出,基于所述状态量和动作值利用双Q学习算法构建值函数;
[0011]基于所述状态量和动作值,在延时更新策略下引入所述值函数对应的存储值函数,并为所述存储值函数设定访问参数和自由参数;
[0012]为所述存储值函数的动作值探索方式设定权重函数,并结合所述访问参数和自由参数,设定值函数更新约束和值函数更新式作为第一算法;
[0013]其中,所述权重函数用于确定所述存储值函数的动作值探索方式;所述存储值函数,用于以奖励值累积最大化为目标,基于所述状态量和奖励值,利用所述动作值探索方式进行动作值的探索和存储;所述访问参数用于限定动作值探索的次数;所述自由参数用于对值函数的更新进行限定;所述第一算法,用于当动作值探索的次数达到所述访问参数且所述值函数和存储值函数满足所述值函数更新约束时,基于所述存储值函数利用所述值函数更新式对所述值函数进行更新得到动作值,并基于所述动作值计算所述控制信号。
[0014]优选的,所述值函数更新约束,按下式表示:
[0015]Q
A
(s,a)

U
A
(s,a)/m≥2ε
[0016]Q
B
(s,a)

U
B
(s,a)/m≥2ε
[0017]式中,Q
A
(s,a)和Q
B
(s,a)均为值函数,U
A
(s,a)为值函数Q
A
(s,a)对应的存储值函数,U
B
(s,a)为值函数Q
B
(s,a)对应的存储值函数,s为状态量,a为状态量s对应的动作值,m为访问参数,ε为自由参数。
[0018]优选的,所述值函数更新式,按下式表示:
[0019]Q
A
(s,a)=U
A
(s,a)/m+ε
[0020]Q
B
(s,a)=U
B
(s,a)/m+ε
[0021]式中,Q
A
(s,a)和Q
B
(s,a)均为值函数,U
A
(s,a)为值函数Q
A
(s,a)对应的存储值函数,U
B
(s,a)为值函数Q
B
(s,a)对应的存储值函数,s为状态量,a为状态量s对应的动作值,m为访问参数,ε为自由参数。
[0022]优选的,所述权重函数的设定,包括:引入权重参数并结合动作值探索产生的动作值最大值和动作值最小值设定权重函数;
[0023]其中,所述动作值探索方式包括单估计量法与双估计量法。
[0024]优选的,所述权重函数,按下式表示:
[0025][0026][0027]式中,c为权重参数,U
A
(s,a)为值函数Q
A
(s,a)对应的存储值函数,U
B
(s,a)为值函数Q
B
(s,a)对应的存储值函数,β
A
为存储值函数U
A
(s,a)的权重函数,β
B
为存储值函数U
B
(s,a)的权重函数,s为状态量,a
L
为基于状态量s进行动作值探索产生的动作值最小值,a*为基于状态量s进行动作值探索产生的动作值最大值。
[0028]优选的,所述存储值函数基于所述状态量、动作值和时间差分误差构建;所述时间差分误差基于延时更新策略产生。
[0029]优选的,所述存储值函数,按下式表示:
[0030]U
A<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种含新能源电网各区域的协同控制方法,其特征在于,包括:获取含新能源电网各区域的运行信息;基于所述运行信息,利用预设的第一算法生成所述运行信息对应的控制信号进行各区域功率和频率的协同控制;其中,所述第一算法基于双Q学习算法通过引入权重参数并融入延时更新策略设定;所述运行信息包括控制误差、电网频率偏差和预设的控制性能指标。2.如权利要求1所述的方法,其特征在于,所述第一算法的设定,包括:以所述运行信息为状态量,并以所述状态量和所述状态量对应的奖励值为输入,以所述状态量对应的动作值为输出,基于所述状态量和动作值利用双Q学习算法构建值函数;基于所述状态量和动作值,在延时更新策略下引入所述值函数对应的存储值函数,并为所述存储值函数设定访问参数和自由参数;为所述存储值函数的动作值探索方式设定权重函数,并结合所述访问参数和自由参数,设定值函数更新约束和值函数更新式作为第一算法;其中,所述权重函数用于确定所述存储值函数的动作值探索方式;所述存储值函数,用于以奖励值累积最大化为目标,基于所述状态量和奖励值,利用所述动作值探索方式进行动作值的探索和存储;所述访问参数用于限定动作值探索的次数;所述自由参数用于对值函数的更新进行限定;所述第一算法,用于当动作值探索的次数达到所述访问参数且所述值函数和存储值函数满足所述值函数更新约束时,基于所述存储值函数利用所述值函数更新式对所述值函数进行更新得到动作值,并基于所述动作值计算所述控制信号。3.如权利要求2所述的方法,其特征在于,所述值函数更新约束,按下式表示:Q
A
(s,a)

U
A
(s,a)/m≥2εQ
B
(s,a)

U
B
(s,a)/m≥2ε式中,Q
A
(s,a)和Q
B
(s,a)均为值函数,U
A
(s,a)为值函数Q
A
(s,a)对应的存储值函数,U
B
(s,a)为值函数Q
B
(s,a)对应的存储值函数,s为状态量,a为状态量s对应的动作值,m为访问参数,ε为自由参数。4.如权利要求2所述的方法,其特征在于,所述值函数更新式,按下式表示:Q
A
(s,a)=U
A
(s,a)/m+εQ
B
(s,a)=U
B
(s,a)/m+ε式中,Q
A
(s,a)和Q
B
(s,a)均为值函数,U
A
(s,a)为值函数Q
A
(s,a)对应的存储值函数,U
B
(s,a)为值函数Q
B
(s,a)对应的存储值函数,s为状态量,a为状态量s对应的动作值,m为访问参数,ε为自由参数。5.如权利要求2所述的方法,其特征在于,所述权重函数的设定,包括:引入权重参数并结合动作值探索产生的动作值最大值和动作值最小值设定权重函数;其中,所述动作值探索方式包括单估计量法与双估计量法。6.如权利要求5所述的方法,其特征在于,所述权重函数,按下式表示:
式中,c为权重参数,β
A
为存储值函数U
A
(s,a)的权重函数,β
B
为存储值函数U
B
(s,a)的权重函数,s为状态量,a
L
为基于状态量s进行动作值探索产生的动作值最小值,a*为基于状态量s进行动作值探索产生的动作值最大值,U
A
(s,a*)和U
B
(s,a*)分别为状态量s和基于状态量s进行动作值探索产生的动作值最大值a*时的存储值函数,U
A
(s,a
L
)和U
B
(s,a
L
)分别为状态量s和基于状态量s进行动作值探索产生的动作值最小值a
L
时的存储值函数。7.如权利要求2所述的方法,其特征在于,所述存储值函数基于所述状态量、动作值和时间差分误差构建;所述时间差分误差基于延时更新策略产生。8.如权利要求7所述的方法,其特征在于,所述存储值函数,按下式表示:U
A
(s,a)=U
A
(s',a')+αδ
A
U
B
(s,a)=U
B
(s',a')+αδ
B
式中,U
A
(s,a)为值函数Q
A
(s,a)对应的存储值函数,U
B
(s,a)为值函数Q
B
(s,a)对应的存储值函数,s

为状态量s的上一状态量,a

为状态量s

对应的动作值,α为学习因子,δ
A
为存储值函数U
A
(s,a)探索动作值产生的时间差分误差,δ
B
为存储值函数U
B
(s,a)探索动作值产生的时间差分误差,U
A
(s

,a

)为状态量s

和状态量s

对应的动作值a

时的存储值函数,U
B
(s

,a

)为状态量s

和状态量s

对应的动作值a

时的存储值函数;其中,时间差分误差δ
A
和δ
B
,按下式计算:δ
A
=r+γ[β
A
U

【专利技术属性】
技术研发人员:周颖张路涛邱敏陈宋宋李德智王忠东周玉
申请(专利权)人:国网江苏省电力有限公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1