【技术实现步骤摘要】
光伏发电柔性功率点追踪控制方法、装置和系统
[0001]本专利技术涉及光伏发电柔性功率点追踪的
,尤其涉及一种基于强化学习的光伏发电柔性功率输出的控制装置和方法。
技术介绍
[0002]近年来光伏行业一直在探索和应用不同的方法来寻找光伏发电最大功率点,而光伏电站发电功率具有较强的随机性和波动性,且受天气及地域的影响较大,单纯追求最大功率也容易产生功率输出不稳定的情况;且大规模光伏集中接入电网后必然会对系统热稳定、暂态稳定、电压稳定、频率稳定及电能质量产生影响。为了保障电力系统的安全稳定运行,光伏发电的安全稳定成为了首要考虑的问题之一,光伏发电柔性功率输出控制的研究也开始诞生和发展。传统方法控制简单,但难以应对快速剧烈变化的环境条件,当环境条件复杂变化时控制精度较差。
技术实现思路
[0003]本专利技术提出了一种伏发电柔性功率点追踪控制方法、装置和系统,能够克服传统方法难以应对快速变换的复杂环境条件和容易出现误判的问题。
[0004]为了达到上述目的,本专利技术提出了一种光伏发电柔性功率点追踪控 ...
【技术保护点】
【技术特征摘要】
1.一种光伏发电柔性功率点追踪控制方法,其特征在于,包括以下步骤:S1、将光伏模型的电源决策模块作为强化学习的智能体,并针对光伏模型中光伏发电柔性功率点进行智能追踪;S2、基于智能体的反馈信号与环境互动,强化学习算法调整和改善智能决策行为,决策出柔性功率点最优追踪策略;S3、智能体通过与环境交互,决策出最优调度策略,以在不断变化的环境中追踪光伏发电柔性功率点。2.如权利要求1所述的光伏发电柔性功率点追踪控制方法,其特征在于,所述智能体基于动作价值函数的Actor
‑
Critic架构,包括四个网络,即演员网络、演员目标网络、批评家网络和批评家目标网络;其中演员网络学习策略函数π,评论家网络学习动作价值函数Q;动作值函数和动作函数分别由深度神经网络Q(s
t
,a
t
|θ
Q
)和μ(s
t
|θ
μ
)训练得到,其中θ
Q
与θ
μ
对应了批评家网络和演员网络中的各层各节点的权值与偏差的参数;演员网络的参数θ
μ
可以通过梯度方法更新:其中,为偏导数,J为演员网络参数关于回报期望的分布,ρ
β
为状态s
t
所服从的分布;评论家网络通过随机梯度下降来最小化损失函数:L(θ
Q
)=E
(s,a)
[(Q(s
t
,a
t
|θ
Q
)
‑
y
t
)2],y
t
=r
t
(s
t
,a
t
)+γQ(s
t+1
,μ(s
t
|θ
μ
)|θ
Q
)其中,L(θ
Q
)为损失函数,y
t
为预期回报,r
t
为当前状态动作下的奖励,γ为衰减率,一般取0.9~1。3.如权利要求1所述的光伏发电柔性功率点追踪控制方法,其特征在于,所述针对光伏模型中光伏发电柔性功率点进行智能追踪的方法,包括以下步骤:将光伏发电柔性功率点智能追踪过程建模描述为马尔科夫决策过程,基于马尔科夫决策过程建立基于DDPG强化学习算法的光伏发电柔性功率点追踪的环境模型、状态空间模型、动作空间模型、奖励函数模型和神经网络模型。4.如权利要求1所述的光伏发电柔性功率点追踪控制方法,其特征在于,所述步骤S2包括以下步骤:S2.1、设定相对应的任务目标;S2.2、智能体通过动作与环境模型进行交互;S2.3、强化学习算法利用所述智能体和环境模型交互的数据进行训练,修改自身的动作策略;S2.4、经过数次迭代后,最终得到相应任务的最优追踪策略。5.如权利要求4所述的光伏发电柔性功率点追踪控制方法,其特征在于,所述强化学习算法包括训练模型,所述训练模型包括:以(状态、行为、奖励、下一个状态)构成的元组(s
t
、a
t
、r
t
、s
t
‑1、s
t
‑2)为样本进行训练,使起始分布J=E(R
t
)的预期回报最大化,其中s
t
为当前的状态,a
t
为当前状态下执行的动作,
r
t
为在执行动作后获得的即时奖励,s
t
‑1为上一时刻状态,s
t
‑2为前一时刻状态;用动作值函数Q
π
(s,a)来表示在状态s
t
下遵循策略π采取动作a
t
时得到奖励R
t
的期望:引入奖励和折扣因子构建强化学习贝尔曼方程为:该目标值函数是当前动作获得的奖励加上下一步动作获得的最大期望价值,其中r(s
t
,a
t
)为执行动作后获得的即时奖励,γ为折扣因子,取值范围为[0,1],根据未来奖励在学习中的重要性而设定。6.如权利要求5所述的光伏发电柔性功率点追踪控制方法,其特征在于,对...
【专利技术属性】
技术研发人员:张佳杰,金欣茹,范佳,张文博,王岚青,李鹏辉,陈乃娟,张江涛,夏云飞,张燕华,倪杏斐,张小芳,陈少霞,张伟阳,周洁,
申请(专利权)人:中国电建集团装备研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。