基于目标值竞争的多能协同互补优化方法、设备及介质技术

技术编号：40908481 阅读：2 留言：0更新日期：2024-04-18 14:38

本发明专利技术涉及多能协同互补技术领域，尤其涉及一种基于目标值竞争的多能协同互补优化方法、设备及介质，包括建立多智能体电网系统分布式非凸经济调度问题的目标优化模型，将目标优化模型建模为偏序马尔可夫决策过程，并采用静态优化的多智能体深度强化学习算法对每个智能体进行离线训练，建立奖励网络与目标Q网络之间的目标值竞争机制，通过目标值竞争机制迭代优化目标Q网络，生成在线优化模型；利用在线优化模型对多智能体电网系统的实时总功率需求进行预测，得到最优输出功率。本发明专利技术通过建立奖励网络与目标网络之间的竞争机制，同时利用估计价值网络和目标价值网络使的离线训练的模型可以在线使用，能够为时变需求提供实时最优输出功率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多能协同互补，尤其涉及一种基于目标值竞争的多能协同互补优化方法、设备及介质。

技术介绍

1、智能电网是新一代电网，其旨在通过能量流和信息流为社会各组成部分提供广泛的控制，对于智能电网来说，提高电网的经济性能是其能源管理的关键因素之一，为了实现电力系统发电过程的优化运行，经济调度问题(economic dispatch problem，edp)被定义为与发电成本相关的优化问题，经典的经济调度问题通常涉及带约束优化问题，以最小化化石燃料发电机组的发电成本为目标，然而，由于阀点效应等问题的存在，发电成本函数通常是非凸的，因此，非凸优化方法需要在每个迭代步骤中重复运行一致性算法，这会增加计算的复杂度以及智能体间的通信负担。

2、目前，针对经济调度问题，其价值函数拟合方法无法提取非凸优化目标函数的特征，或者末采用价值函数拟合导致状态空间的离散化，此外，由部分可观测性带来的不稳定性问题仍未被解决，且这些方法的计算复杂度很高，无法实现需求端的快速响应，因此，亟需进一步研究新的优化方法来解决这些问题。

技术实现思路

1、本专利技术的目的在于提供基于目标值竞争的多能协同互补优化方法、设备及介质，以降低计算复杂度和智能体间的通信负担，同时实现需求端的快速响应。

2、为解决以上技术问题，本专利技术提供了一种基于目标值竞争的多能协同互补优化方法、设备及介质。

3、第一方面，本专利技术提供了一种基于目标值竞争的多能协同互补优化方法，所述方法包括以下步骤：p>

4、将每个发电机组视为一个智能体，建立考虑多智能体电网系统分布式非凸经济调度问题的目标优化模型，并设定目标优化模型的约束条件；

5、将所述目标优化模型建模为偏序马尔可夫决策过程模型；

6、基于所述偏序马尔可夫决策过程模型，采用静态优化的多智能体深度强化学习算法在随机状态下对每个智能体进行离线训练，并将奖励网络作为模糊控制器，建立奖励网络与目标q网络之间的目标值竞争机制，通过所述目标值竞争机制迭代优化所述目标q网络，生成在线优化模型；

7、利用所述在线优化模型对多智能体电网系统的实时总功率需求进行预测，得到最优输出功率。

8、第二方面，本专利技术还提供了一种计算机设备，包括处理器和存储器，所述处理器与所述存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得所述计算机设备执行实现上述方法的步骤。

9、第三方面，本专利技术还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

10、本专利技术提供了一种基于目标值竞争的多能协同互补优化方法、设备及介质，所述方法将每个发电机组视为一个智能体，建立考虑多智能体电网系统分布式非凸经济调度问题的目标优化模型，并将目标优化模型建模为偏序马尔可夫决策过程模型；基于偏序马尔可夫决策过程模型，采用静态优化的多智能体深度强化学习算法在随机状态下对每个智能体进行离线训练，并将奖励网络作为模糊控制器，建立奖励网络与目标q网络之间的目标值竞争机制，通过目标值竞争机制迭代优化目标q网络，生成在线优化模型；利用在线优化模型对多智能体电网系统的实时总功率需求进行预测，得到最优输出功率。与现有技术相比，该方法通过引入奖励网络，建立奖励网络与目标网络之间的竞争机制，通过竞争机制来迭代地优化网络，为网络的更新确定了一个逐渐稳定的目标值，保证网络的损失能够有效地收敛，同时采用双网络结构拟合函数，使离线训练的模型可以在线使用，为时变需求实时提供最优输出功率，从而实现多智能体电网系统分布式非凸经济调度任务。

本文档来自技高网...

【技术保护点】

1.一种基于目标值竞争的多能协同互补优化方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于目标值竞争的多能协同互补优化方法，其特征在于，所述目标优化模型的约束条件包括功率平衡约束条件、发电容量约束条件以及禁止运行区约束条件，所述目标优化模型具体为：

3.如权利要求1所述的一种基于目标值竞争的多能协同互补优化方法，其特征在于，所述将所述目标优化模型建模为偏序马尔可夫决策过程模型的步骤包括：

4.如权利要求1所述的一种基于目标值竞争的多能协同互补优化方法，其特征在于，所述基于偏序马尔可夫决策过程模型，采用静态优化的多智能体深度强化学习算法在随机状态下对每个智能体进行离线训练的步骤包括：

5.如权利要求4所述的一种基于目标值竞争的多能协同互补优化方法，其特征在于，定义智能体的联合奖励为：

6.如权利要求4所述的一种基于目标值竞争的多能协同互补优化方法，其特征在于，所述估计Q网络的更新公式为：

7.如权利要求6所述的一种基于目标值竞争的多能协同互补优化方法，其特征在于，定义各个智能体强化学习的随机过程函数为：

8.如权利要求7所述的一种基于目标值竞争的多能协同互补优化方法，其特征在于，多智能体电网系统在解决分布式非凸经济调度问题时，在无穷范数下，智能体的状态-动作st、ai,t对满足以下约束：

9.一种计算机设备，其特征在于：包括处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述计算机设备执行如权利要求1至8中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被运行时，实现如权利要求1至8任一项所述的方法。

...

【技术特征摘要】

1.一种基于目标值竞争的多能协同互补优化方法，其特征在于，包括以下步骤：

5.如权利要求4所述的一种基于目标值竞争的多能协同互补优化方法，其特征在于，定义智能体的联合奖励为：

6.如权利要求4所述的一种基于目...

【专利技术属性】
技术研发人员：黄海潮，黄宇腾，陈珊，柴林，许小可，应张驰，杨强，杨灵方，
申请(专利权)人：国网浙江省电力有限公司信息通信分公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人