当前位置: 首页 > 专利查询>国网江苏省电力有限公司国家电网有限公司专利>正文

一种含新能源电网各区域的协同控制方法、智能体和介质技术

技术编号：38862347 阅读：22 留言：0更新日期：2023-09-17 10:04

本发明专利技术提供了一种含新能源电网各区域的协同控制方法、智能体和介质，包括：获取含新能源电网各区域的运行信息；基于运行信息，利用预设的第一算法生成运行信息对应的控制信号进行各区域功率和频率的协同控制；第一算法基于双Q学习算法通过引入权重参数并融入延时更新策略设定；运行信息包括控制误差、电网频率偏差和控制性能指标；本发明专利技术在双Q算法的基础上引入权重思想，可在不同计量法中进行权衡，避免强化学习算法的高估与低估问题，在含新能源电网的强随机环境中形成更精确、误差更小的控制信号，从而使电网控制性能更优，有效解决新能源并网带来的强随机扰动问题；在双Q算法的基础上融入延时更新策略，提升算法更新效率，加快收敛速度。加快收敛速度。加快收敛速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种含新能源电网各区域的协同控制方法、智能体和介质

[0001]本专利技术属于电力系统自动发电控制技术，具体涉及一种含新能源电网各区域的协同控制方法、智能体和介质。

技术介绍

[0002]新能源的随机特性严重威胁了多区域电网间的协同控制和安全稳定运行，诸如电压越限、功率波动、频率失稳等一系列强随机扰动问题亟待解决。自动发电控制(automatic generation control,AGC)是能量管理系统(EMS)的重要组成部分，在调节电网有功功率、频率和维持电网安全稳定运行等方面一直发挥着重要作用，通常利用电网中的AGC智能体实现上述功能。但由于新能源分布较为分散，对各区域电网间的信息交互灵活度和协同控制程度要求较高，而传统集中式AGC系统又总是只优先保证自身区域控制性能达到最优化，各区域间信息协同控制程度较低，因此将传统集中式AGC作为电网调度的重要手段已经难以满足高比例新能源并网模式下控制性能的需求。近年来，已有许多学者致力于分布式AGC控制方法研究，并将强化学习、深度学习、自适应控制、神经网络、滑模结构控制等引入分布式AGC控制器(即智能体)中，提出了一系列分布式AGC算法。其中，基于马尔可夫决策过程的强化学习不需依赖系统先验知识，在与环境交互的过程中可通过反复探索与试错来不断调整和优化策略以满足期望回报，从而获取序列问题最优解。且由于其奖励函数相对易于设计，故基于强化学习的控制算法在决策、自学习和自优化等方面所具的有强大优势使其在分布式AGC模式下得到了广泛应用。还有学者提出面向多区域能源互联的多智能体强...

【技术保护点】

【技术特征摘要】
1.一种含新能源电网各区域的协同控制方法，其特征在于，包括：获取含新能源电网各区域的运行信息；基于所述运行信息，利用预设的第一算法生成所述运行信息对应的控制信号进行各区域功率和频率的协同控制；其中，所述第一算法基于双Q学习算法通过引入权重参数并融入延时更新策略设定；所述运行信息包括控制误差、电网频率偏差和预设的控制性能指标。2.如权利要求1所述的方法，其特征在于，所述第一算法的设定，包括：以所述运行信息为状态量，并以所述状态量和所述状态量对应的奖励值为输入，以所述状态量对应的动作值为输出，基于所述状态量和动作值利用双Q学习算法构建值函数；基于所述状态量和动作值，在延时更新策略下引入所述值函数对应的存储值函数，并为所述存储值函数设定访问参数和自由参数；为所述存储值函数的动作值探索方式设定权重函数，并结合所述访问参数和自由参数，设定值函数更新约束和值函数更新式作为第一算法；其中，所述权重函数用于确定所述存储值函数的动作值探索方式；所述存储值函数，用于以奖励值累积最大化为目标，基于所述状态量和奖励值，利用所述动作值探索方式进行动作值的探索和存储；所述访问参数用于限定动作值探索的次数；所述自由参数用于对值函数的更新进行限定；所述第一算法，用于当动作值探索的次数达到所述访问参数且所述值函数和存储值函数满足所述值函数更新约束时，基于所述存储值函数利用所述值函数更新式对所述值函数进行更新得到动作值，并基于所述动作值计算所述控制信号。3.如权利要求2所述的方法，其特征在于，所述值函数更新约束，按下式表示：Q
A
(s,a)
‑
U
A
(s,a)/m≥2εQ
B
(s,a)
‑
U
B
(s,a)/m≥2ε式中，Q
A
(s,a)和Q
B
(s,a)均为值函数，U
A
(s,a)为值函数Q
A
(s,a)对应的存储值函数，U
B
(s,a)为值函数Q
B
(s,a)对应的存储值函数，s为状态量，a为状态量s对应的动作值，m为访问参数，ε为自由参数。4.如权利要求2所述的方法，其特征在于，所述值函数更新式，按下式表示：Q
A
(s,a)＝U
A
(s,a)/m+εQ
B
(s,a)＝U
B
(s,a)/m+ε式中，Q
A
(s,a)和Q
B
(s,a)均为值函数，U
A
(s,a)为值函数Q
A
(s,a)对应的存储值函数，U
B
(s,a)为值函数Q
B
(s,a)对应的存储值函数，s为状态量，a为状态量s对应的动作值，m为访问参数，ε为自由参数。5.如权利要求2所述的方法，其特征在于，所述权重函数的设定，包括：引入权重参数并结合动作值探索产生的动作值最大值和动作值最小值设定权重函数；其中，所述动作值探索方式包括单估计量法与双估计量法。6.如权利要求5所述的方法，其特征在于，所述权重函数，按下式表示：
式中，c为权重参数，β
A
为存储值函数U
A
(s,a)的权重函数，β
B
为存储值函数U
B
(s,a)的权重函数，s为状态量，a
L
为基于状态量s进行动作值探索产生的动作值最小值，a*为基于状态量s进行动作值探索产生的动作值最大值，U
A
(s,a*)和U
B
(s,a*)分别为状态量s和基于状态量s进行动作值探索产生的动作值最大值a*时的存储值函数，U
A
(s,a
L
)和U
B
(s,a
L
)分别为状态量s和基于状态量s进行动作值探索产生的动作值最小值a
L
时的存储值函数。7.如权利要求2所述的方法，其特征在于，所述存储值函数基于所述状态量、动作值和时间差分误差构建；所述时间差分误差基于延时更新策略产生。8.如权利要求7所述的方法，其特征在于，所述存储值函数，按下式表示：U
A
(s,a)＝U
A
(s',a')+αδ
A
U
B
(s,a)＝U
B
(s',a')+αδ
B
式中，U
A
(s,a)为值函数Q
A
(s,a)对应的存储值函数，U
B
(s,a)为值函数Q
B
(s,a)对应的存储值函数，s
’
为状态量s的上一状态量，a
’
为状态量s
’
对应的动作值，α为学习因子，δ
A
为存储值函数U
A
(s,a)探索动作值产生的时间差分误差，δ
B
为存储值函数U
B
(s,a)探索动作值产生的时间差分误差，U
A
(s
’
,a
’
)为状态量s
’
和状态量s
’
对应的动作值a
’
时的存储值函数，U
B
(s
’
,a
’
)为状态量s
’
和状态量s
’
对应的动作值a
’
时的存储值函数；其中，时间差分误差δ
A
和δ
B
，按下式计算：δ
A
＝r+γ[β
A
U

【专利技术属性】
技术研发人员：周颖，张路涛，邱敏，陈宋宋，李德智，王忠东，周玉，
申请(专利权)人：国网江苏省电力有限公司国家电网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人