一种基于混合深度强化学习的有功功率优化调度方法技术

技术编号:45702918 阅读:23 留言:0更新日期:2025-07-04 18:17
本发明专利技术涉及一种基于混合深度强化学习的有功功率优化调度方法,包括:构建包括深度双Q网络模型和SAC模型的DRL代理,定义深度双Q网络模型的离散动作空间和奖励函数,使其与电力系统交互并输出对发电机的初始调整控制动作;定义SAC模型的连续动作空间和奖惩值,使得其与电力系统、深度双Q网络模型交互,对初始调整控制动作进行连续微调,进而输出对发电机的最终调整控制动作。本发明专利技术有效结合了两个模型离散决策与连续微调的动作调整机制,训练后DRL代理从不同的初始点以及不同的负载模式下,均可获得有功功率调度的最优解,解决了传统调度方法在电网高不确定性的环境下模型失效的问题。

【技术实现步骤摘要】

本专利技术属于电力系统,尤其涉及一种基于混合深度强化学习的有功功率优化调度方法


技术介绍

1、传统的最优有功功率调度方法通常首先将问题建模为一个目标函数在已知系统条件下受到各种约束的优化问题,进而从已知的系统动态特性得出最佳解决方案。这种形式的建模处理不确定性事件时能力有限,但当电网系统的数学模型无法获得或者不够准确时,大部分现有的基于系统建模的方法都会失效,此时模型计算得到的最优运营成本可能并不是实际的最优运营成本,甚至可能偏离很大。

2、而随着可再生能源发电和新能源储能设备的高渗透率,新兴电力市场行为极大地改变了传统电网的特性,电网系统中出现了巨大的不确定性,这使得大部分现有的基于系统建模的最优有功功率调度方法均面临模型失效,无法再计算出最优解的问题。


技术实现思路

1、本专利技术的目的在于解决上述技术问题之一,提供一种基于混合深度强化学习的有功功率优化调度方法。

2、为实现上述目的,本专利技术采用的技术方案是:

3、一种基于混合深度强化学习的有功功率优化调度方法,包本文档来自技高网...

【技术保护点】

1.一种基于混合深度强化学习的有功功率优化调度方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于混合深度强化学习的有功功率优化调度方法,其特征在于,所述发电系统中,每个发电机的有功功率均满足有功功率和无功功率的等式约束、有功功率和无功功率的不等式约束以及每个节点的电压安全区域和线路潮流安全不等式约束;

3.根据权利要求1所述的基于混合深度强化学习的有功功率优化调度方法,其特征在于,所述深度双Q网络模型的离散动作空间定义为:[+β,-β,0]MV;

4.根据权利要求3所述的基于混合深度强化学习的有功功率优化调度方法,其特征在于,所述深度双Q网...

【技术特征摘要】

1.一种基于混合深度强化学习的有功功率优化调度方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于混合深度强化学习的有功功率优化调度方法,其特征在于,所述发电系统中,每个发电机的有功功率均满足有功功率和无功功率的等式约束、有功功率和无功功率的不等式约束以及每个节点的电压安全区域和线路潮流安全不等式约束;

3.根据权利要求1所述的基于混合深度强化学习的有功功率优化调度方法,其特征在于,所述深度双q网络模型的离散动作空间定义为:[+β,-β,0]mv;

4.根据权利要求3所述的基于混合深度强化学习的有功功率优化调度方法,其特征在于,所述深度双q网络模型包括q网络和目标q网络,所述深度双q网络模型的q网络在训练过程中不断基于更新值函数更新自身参数,获取q估计值,且每经过n次动作后将自身网络参数同步至目标q网络;

5.根据权利要求4所述的基于混合深度强化学习的有功功率优化调度方法,其特征在于,所述深度双q网络模型训练过程中,采用衰减ε-贪心搜寻方法加快网络模型参数的收敛速度,所述衰减ε-贪心搜寻方法使得所述深度双q网络模型在第i次迭代中,存在预定概率选择一随机动作,且所述预定概率在训练过程中不断衰减,所述预定概率的变化表达式为:

6.根据权利要求5所述的基于混...

【专利技术属性】
技术研发人员:兰慧峰李国玉孟勐郝雷鹏段嘉俊魏雄
申请(专利权)人:中车青岛四方车辆研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1