一种基于深度强化学习的虚拟电厂调频服务优化方法技术

技术编号：41322343 阅读：4 留言：0更新日期：2024-05-13 15:01

本发明专利技术涉及一种基于深度强化学习的虚拟电厂调频服务优化方法，包括以下步骤：DER即distributed energy resource分布式能源出力模型的构建：DER作为VPP即virtual power generation虚拟电厂频率调节服务的主要参与者，需对其出力进行不确定性建模；DRL即deep reinforcement learning强化深度学习算法的离线训练：在DER出力模型已建立的基础上，设计一个离线模拟器对DRL算法进行离线训练，并构建DER动态聚合模型；DRL算法的在线更新：在DRL算法已进行离线训练的基础上，将离线策略转化为在线策略，并在实际环境中不断更新；VPP调频服务的优化：实时更新的优化策略，以更新VPP内DER的出力计划。本发明专利技术根据DRL算法的特点，通过离线模拟器对算法进行离线训练，同时实时更新调频出力计划，有效提高了VPP调频服务的经济性和精准性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及虚拟电厂调频优化领域，具体是一种基于深度强化学习的虚拟电厂调频服务优化方法。

技术介绍

1、越来越多的分布式能源具有巨大的潜在效益，为电力系统提供额外的灵活性。但受电力系统运行商发布的最低容量要求限制，个别小容量的der无法直接参与电力系统运行。鉴于此，虚拟电厂作为实现电力系统运营商与单个der设备之间协调优化的新平台应运而生。但由于分布式能源的不确定参数和未知的动态特性，在虚拟电厂中管理大量分布式能源变得极具挑战性。

2、深度强化学习是人工智能领域的一个新的研究热点．它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制。本专利技术利用深度强化学习算法兼具感知能力和决策能力的特点，实时更新vpp内各der的调频出力计划，以提高vpp调频的精准性和经济性。

技术实现思路

1、本专利技术的目的是为了解决传统vpp调频服务精准度低及调频成本高等问题，提供一种基于深度强化学习的虚拟电厂调频服务优化方法来解决上述问题。

2、为了实现上述目的，本专利技术的技术方案如下：一种基于深度强化学习的虚拟电厂调频服务优化方法，包括以下步骤：

3、步骤s1:der即distributed energy resource分布式能源出力模型的构建：der作为vpp即virtual power generation虚拟电厂频率调节服务的主要参与者，需对其出力进行不确定性建模；

4、

5、步骤s3:drl算法的在线更新：在drl算法已进行离线训练的基础上，将离线策略转化为在线策略，并在实际环境中不断更新；

6、步骤s4:vpp调频服务的优化：获取步骤s1、s3）实时更新的优化策略，以更新vpp内der的出力计划。

7、进一步的，所述步骤s1中，der作为vpp调频服务的主要参与者，其出力存在不确定性，为提高调频服务的可靠性，需对der出力进行不确定性建模。der的出力可表示为：

8、,

9、式中，为第个der在时刻的日内功率输出；为第个der在时刻的实际功率输出；为第个der的惯性系数；为第个der跟踪精度的增益系数；为第个der的输出参考功率；为时间步长；为第个der的延时时间长度。

10、其中，der的调节成本包括增量运行成本和调节里程成本，可表示为：

11、,

12、,

13、式中，、分别为第个der的增量运行成本和调节里程成本；、、为第个der的稳态运行成本系数；表示第个der的里程成本系数；为第个der在-1时刻的实际功率输出。

14、进一步的，所述步骤s2中，在drl训练阶段的启动过程中，采样数据不足，drl代理商对环境的了解较少。drl代理商在探索环境时会产生大量随机数据，将导致较高的经济成本和跟踪误差。因此，需设计一个离线模拟器用以drl算法的离线训练，并构建der的动态聚合模型。

15、由于电力系统中der的数量巨大，为了提高训练效率，将der进行分类便于统一管理。在训练时只需通过控制聚合器而不是单个der，降低操作难度。在步骤s1所述的der出力模型中，动态参数可分为两大类，根据两类之间的常数参数将der分类为不同的聚合器。通过计算同一聚合器中的几何中心和的和，可得到聚合器的近似参数:

16、,

17、,

18、式中，表示聚合器中der的集合；和是聚合器的近似参数；为第个der 的权重因子；和为der的动态参数集合。

19、在对聚合器以完成分类的基础上，构建der的动态聚合模型如下：

20、,

21、,

22、式中，为k第个聚合器在t时刻的日内功率输出；为第k个聚合器的惯性系数；为第k个聚合器的增益系数；、为第k个聚合器在t时刻的功率输出和剩余能量；为t时刻基于日内调度计划对聚合器k的调节命令；为第k个聚合器的延时时间长度；为t时刻聚合器k的有功功率日内分配方案；为第k个聚合器的能量保有率；为第个聚合器在t-1时刻的剩余能量；表示时间间隔；、分别为第k个聚合器输入和输出的转换效率。

23、其中，聚合商调控成本如下：

24、,

25、,

26、式中，和分别为第个聚合器的稳态运行成本和调节里程成本；和分别代表第个聚合器增量运行成本系数和里程成本系数的近似值；表示第个聚合器的增量输出功率调整；为第个聚合器在-1时刻的功率输出。

27、根据已建立的der动态聚合模型，以聚合商调控成本最小化为目标，利用求解器求解得出drl算法离线训练状态下vpp内各der的调频出力方案。

28、进一步的，所述步骤s3中，在已进行drl算法离线训练的基础上，以步骤s2得出的出力方案为初始方案，并在实际环境中不断更新。与离线训练阶段不同，状态变量和调控成本是通过对实际环境的检测获得的。因此，以下变量和聚合器的调控成本应根据各der的实际遥测数据实时更新:

29、,

30、,

31、,

32、式中，为第个der在时刻的实际剩余能量。

33、此外，在线更新过程中，应将调频命令分解到所有单独的der中，从聚合器到单个der的分解原则如下：

34、,

35、式中，为第个der在时刻的调节功率；、分别为第个der调节功率的上界和下界；、分别为第个聚合器调节功率的上界和下界；为第个聚合器在时刻的参考功率输出。

36、进一步的，所述步骤s4中，由步骤s2得到的vpp内der调频出力的初始方案，并在步骤s3中通过drl算法实时更新，得到实时更新的调频出力方案。故vpp调频服务的优化步骤如下：

37、1）由于大量新能源接入电力系统，系统运营商向vpp代理商发出调频指令；

38、2）vpp代理商通过drl算法制定内部各类der的出力计划，并下发到各个der发电商；

39、3）der发电商接收到vpp代理商下发的出力计划，并根据实际情况向vpp代理商反馈误差；

40、4）vpp代理商根据接收到的误差，通过drl算法实时更新出力计划，同时向系统运营商反馈跟踪误差；

41、5）系统运营商根据反馈的跟踪误差，重新制定调频指令，并向vpp代理商下发。

42、步骤1-3)循环执行，直到满足系统的调频要求。

43、一种基于深度强化学习的虚拟电厂调频服务优化方法，所述步骤s2中der出力模型的动态参数集合和包括以下参数：

44、,

45、式中，分别为第i个der输入和输出的转换效率；为第i个本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的虚拟电厂调频服务优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的虚拟电厂调频服务优化方法，其特征是，所述步骤S1中，DER作为VPP调频服务的主要参与者，其出力存在不确定性，为提高调频服务的可靠性，需对DER出力进行不确定性建模，DER的出力表示为：

3.根据权利要求1所述的一种基于深度强化学习的虚拟电厂调频服务优化方法，其特征是，所述步骤S2中，在DRL训练阶段的启动过程中，采样数据不足，DRL代理商对环境的了解较少，DRL代理商在探索环境时会产生大量随机数据，将导致较高的经济成本和跟踪误差，因此，需设计一个离线模拟器用以DRL算法的离线训练，并构建DER的动态聚合模型；

4.根据权利要求1所述的一种基于深度强化学习的虚拟电厂调频服务优化方法，其特征是，所述步骤S3中，在已进行DRL算法离线训练的基础上，以步骤S2得出的出力方案为初始方案，并在实际环境中不断更新，与离线训练阶段不同，状态变量和调控成本是通过对实际环境的检测获得的，因此，以下变量和聚合器的调控成本应根据各DER的实际遥测数据实时更新，

5.根据权利要求1所述的一种基于深度强化学习的虚拟电厂调频服务优化方法，其特征是，所述步骤S4中，由步骤S2得到的VPP内DER调频出力的初始方案，并在步骤S3中通过DRL算法实时更新，得到实时更新的调频出力方案，故VPP调频服务的优化步骤如下：

6.根据权利要求1所述的一种基于深度强化学习的虚拟电厂调频服务优化方法，其特征是，所述步骤S2中DER出力模型的动态参数集合和包括以下参数：

...

【技术特征摘要】

1.一种基于深度强化学习的虚拟电厂调频服务优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的虚拟电厂调频服务优化方法，其特征是，所述步骤s1中，der作为vpp调频服务的主要参与者，其出力存在不确定性，为提高调频服务的可靠性，需对der出力进行不确定性建模，der的出力表示为：

3.根据权利要求1所述的一种基于深度强化学习的虚拟电厂调频服务优化方法，其特征是，所述步骤s2中，在drl训练阶段的启动过程中，采样数据不足，drl代理商对环境的了解较少，drl代理商在探索环境时会产生大量随机数据，将导致较高的经济成本和跟踪误差，因此，需设计一个离线模拟器用以drl算法的离线训练，并构建der的动态聚合模型；

4.根据权利要求1所述的一种基于深...

【专利技术属性】
技术研发人员：吕冉，唐懿颖，郭明星，王素，江婷，兰莉，高赐威，管圣冰，
申请(专利权)人：国网上海市电力公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人