基于双Q值网络深度强化学习的微电网能量调度方法技术

技术编号:26796569 阅读:32 留言:0更新日期:2020-12-22 17:13
本发明专利技术公开了一种基于双Q值网络深度强化学习的微电网能量调度方法,将微电网的一天预测信息当作生成最优控制策略的训练集,训练一个独立于微电网环境、以储能系统作为控制对象的智能体,通过对储能系统的充放电动作进行控制来实现微电网的运行花费最小和对公共电网功率波动最小的双重优化目标。该方法因其不依赖于具体微电网模型的构建,并且由奖励函数的设计来引导策略实现微电网运行的目标,可以获得全局时间的最优策略,能够有效解决新能源发电和用户负荷分布的不确定性导致的功率不平衡。

【技术实现步骤摘要】
基于双Q值网络深度强化学习的微电网能量调度方法
本专利技术涉及电力工程
,具体涉及微电网运行控制与能量调度领域。
技术介绍
日益受到关注的环境问题和灵活的交易机制给电力系统的设计和运行带来了新的挑战。发展可再生能源作为解决能源危机的主要手段,催生了由分布式能源、储能和负荷构成的微电网。然而,由于光伏或风力发电等可在生能源天然的间歇性和随机性,难以对其直接安排生产计划,这对电网的平衡产生不利影响。意外的功率变化导致的功率不平衡需要承担昂贵的后备设备或服务的花费,从而会显着降低微电网的经济性。解决此问题的有效措施之一是使用传统的基于模型的控制方法对不同种类的储能装置进行调度,这需要对微电网进行精确建模并通过设计预测器和求解器获得最优策略。
技术实现思路
本专利技术所要解决的技术问题就是提供一种基于双Q值网络深度强化学习的微电网能量调度方法,采用最优策略对不同种类的储能装置进行调度,解决意外的功率变化导致的功率不平衡问题,保证微电网的经济性。为解决上述技术问题,本专利技术采用如下技术方案:基于双Q值网络深度强化学习的微电网能量调度方法,包括如下步骤:步骤(1):依据所控新能源微电网建立与之对应的仿真模型,在日前调度阶段,获得未来一天各时段的各种可再生能源的出力、与微电网连接的主电网的实时电价以及负荷需求,并将其作为智能体的训练数据;步骤(2):定义强化学习算法框架下与微电网仿真模型相对应训练环境,包括如下子步骤:(2.1)定义环境状态空间:包括从当前调度时刻到k时刻前的微电网外在状态信息构成状态空间的外在部分、储能系统的荷电状态构成状态空间的可控部分、每次调度的时间信息h(t)构成状态空间的时间部分ST;(2.2)定义智能体动作空间:每次调度智能体对储能系统的充放电行为进行控制:(2.3)定义奖励函数:用来引导智能体实现预定微电网优化目标,;(2.4)设置储能系统后备控制器:以保证智能体产生的动作不会超出储能系统的荷电状态上下限值;(2.5)执行实际控制指令:储能系统根据实际控制指令充放电;(2.6)与主电网交互:微电网通过公共节点与主电网连接,依靠主电网达到最终的功率平衡,若新能源发电和储能系统不能满足本地负荷需求,则从主电网以实时电价购电;若储能系统以最大功率存储新能源发电的多余电量后仍有剩余电量,则将其回馈给主电网;步骤(3):采用双Q网络深度强化学习:对步骤(2)定义的强化学习训练环境进行多次训练,将一次训练作为一幕,在一天时间上反复进行多幕训练直至总奖励值收敛;步骤(4):将步骤(3)训练好的智能体应用于一天的实时调度,在每个调度时段,将此时微电网的状态信息输入评估神经网络并选取使Q值最大的动作为输出动作,经后备控制器转换为实际指令用于储能系统的控制。优选的,微电网的分布式可再生能源出力由风力发电和光伏发电组成,用户连接于微电网并配备了储能系统,微电网通过公共节点与主电网连接,并实时获得主电网的电价。优选的,所述步骤(1)包括如下步骤:I)考虑充分利用各可再生能源以满足负荷要求,并通过储能系统存储剩余电量以供后续使用,功率平衡关系如下:其中,DG为分布式可再生能源的集合,Pi(t)为第i个可在生能源在时段t的出力,PRES(t)为各种可再生能源发电在t时段的输出功率之和,PLoad(t)为负荷在t时段的功率需求,PBalance(t)为负荷与可再生能源的功率差值,正数代表生产不足,负数代表生产过剩,PESS(t)为储能系统的充放电功率,由能量管理系统控制其输出,正数为充电功率,负数为放电功率;PGrid(t)为微电网与主电网之间的功率交换,正数代表从主电网购电,负数代表向主电网反馈电能;II)能量管理系统控制目标设为微电网运行花费最小以及与主网交换功率波动最小双重目标,在实时电价环境下,微电网获得最高效益的同时减小负荷与生产不平衡造成的峰谷差值,优化目标如下:其中,C(t)为各时段微电网运行的总花费;γ(t)为每个调度时段主电网的实时电价;Δ为每次的调度时间范围;SoC(t)为储能系统的荷电状态,要求约束在一定范围内以保证电池的使用寿命;储能系统的充放电功率PESS(t)和可再生能源发电的总出力PRES(t)根据微电网具体配置而限定;T为总的时段数。优选的,步骤(2.1)中,在每个时段从数据采集与监视控制系统获得能够表征微电网动态的外在状态信息,分别为可再生能源总发电功率PRES(t),用户负荷PLoad(t),市场实时电价γ(t),选择从当前调度时刻到k时刻前的微电网外在状态信息构成状态空间的外在部分,即:sE(t)={PRES(t-k),PLoad(t-k),γ(t-k)...PRES(t),PLoad(t),γ(t)}∈SE(3)储能系统的荷电状态SoC(t)根据智能体的动作而改变,构成状态空间的可控部分:sC(t)={SoC(t)}∈SC(4)此外,每次调度的时间信息h(t)也被加入状态空间中,构成状态空间的时间部分ST,于是状态空间S可以表示为:S=SE×SC×ST(5)步骤(2.2)中,离散化动作空间A定义为{0,1,2},其中动作0表示使储能系统处于闲置状态,动作1表示利用新能源产生的电量给储能系统充电,动作2表示储能系统放电供用户使用;步骤(2.3)中,对于经济调度,最大化长期奖励即为最小化负的电网运行费用:r(t)=-C(t)(6)。优选的,步骤(2.4)中,若智能体的动作值使得储能系统的荷电状态超过限值,则实际的控制指令b(t)设为闲置,即:其中,b(t)为储能系统实际收到的控制指令,智能体对此并不知悉,但仍然能够接收指令执行后微电网的状态信息以及奖励函数,以进行策略改进;步骤(2.5)中,若b(t)为1,则储能系统在新能源发电满足本地负荷并有剩余电量的情况下,尽可能的储存超出的发电量,但其功率不会超过最大充电功率,若b(t)为2,则储能系统释放电能以弥补新能源发电不足所缺的电力供用户使用,但其功率不会超过最大放电功率。优选的,步骤(3)包括以下子步骤:(3.1)定义Q值函数:使用Q值评估策略π,定义为状态s下采用动作a后未来累积折扣奖励的期望值:其中,γ为折扣因子;最优策略定义为在整个状态空间下采取使Q值最大的动作的策略,即:其中,Q*(s,a)为最优Q值,π*为最优策略;(3.2)构建双Q网络:使用神经网络逼近最优Q值;(3.3)随机环境探索:对智能体进行训练时,使用了逐渐减小的环境探索策略;(3.4)经验回放:使用经验回放机制训练数据的相关性和非平稳分布问题。优选的,步骤(3.2)为了使算法性能更加稳定,分别构建估计网络和目标网络,两个网络结构完全相同但是参数不同,估计网络使用最新的参数并不断通过学习更新网络参数,而目标网络的参数每隔一段时间由估计网络复制而来本文档来自技高网...

【技术保护点】
1.基于双Q值网络深度强化学习的微电网能量调度方法,其特征在于,包括如下步骤:/n步骤(1):依据所控新能源微电网建立与之对应的仿真模型,在日前调度阶段,获得未来一天各时段的各种可再生能源的出力、与微电网连接的主电网的实时电价以及负荷需求,并将其作为智能体的训练数据;/n步骤(2):定义强化学习算法框架下与微电网仿真模型相对应训练环境,包括如下子步骤:/n(2.1)定义环境状态空间:包括从当前调度时刻到k时刻前的微电网外在状态信息构成状态空间的外在部分、储能系统的荷电状态构成状态空间的可控部分、每次调度的时间信息h(t)构成状态空间的时间部分S

【技术特征摘要】
1.基于双Q值网络深度强化学习的微电网能量调度方法,其特征在于,包括如下步骤:
步骤(1):依据所控新能源微电网建立与之对应的仿真模型,在日前调度阶段,获得未来一天各时段的各种可再生能源的出力、与微电网连接的主电网的实时电价以及负荷需求,并将其作为智能体的训练数据;
步骤(2):定义强化学习算法框架下与微电网仿真模型相对应训练环境,包括如下子步骤:
(2.1)定义环境状态空间:包括从当前调度时刻到k时刻前的微电网外在状态信息构成状态空间的外在部分、储能系统的荷电状态构成状态空间的可控部分、每次调度的时间信息h(t)构成状态空间的时间部分ST;
(2.2)定义智能体动作空间:每次调度智能体对储能系统的充放电行为进行控制:
(2.3)定义奖励函数:用来引导智能体实现预定微电网优化目标,;
(2.4)设置储能系统后备控制器:以保证智能体产生的动作不会超出储能系统的荷电状态上下限值;
(2.5)执行实际控制指令:储能系统根据实际控制指令充放电;
(2.6)与主电网交互:微电网通过公共节点与主电网连接,依靠主电网达到最终的功率平衡,若新能源发电和储能系统不能满足本地负荷需求,则从主电网以实时电价购电;若储能系统以最大功率存储新能源发电的多余电量后仍有剩余电量,则将其回馈给主电网;
步骤(3):采用双Q网络深度强化学习:对步骤(2)定义的强化学习训练环境进行多次训练,将一次训练作为一幕,在一天时间上反复进行多幕训练直至总奖励值收敛;
步骤(4):将步骤(3)训练好的智能体应用于一天的实时调度,在每个调度时段,将此时微电网的状态信息输入评估神经网络并选取使Q值最大的动作为输出动作,经后备控制器转换为实际指令用于储能系统的控制。


2.根据权利要求1所述的基于双Q值网络深度强化学习的微电网能量调度方法,其特征在于:微电网的分布式可再生能源出力由风力发电和光伏发电组成,用户连接于微电网并配备了储能系统,微电网通过公共节点与主电网连接,并实时获得主电网的电价。


3.根据权利要求1所述的基于双Q值网络深度强化学习的微电网能量调度方法,其特征在于:所述步骤(1)包括如下步骤:
I)考虑充分利用各可再生能源以满足负荷要求,并通过储能系统存储剩余电量以供后续使用,功率平衡关系如下:



其中,DG为分布式可再生能源的集合,Pi(t)为第i个可在生能源在时段t的出力,PRES(t)为各种可再生能源发电在t时段的输出功率之和,PLoad(t)为负荷在t时段的功率需求,PBalance(t)为负荷与可再生能源的功率差值,正数代表生产不足,负数代表生产过剩,PESS(t)为储能系统的充放电功率,由能量管理系统控制其输出,正数为充电功率,负数为放电功率;PGrid(t)为微电网与主电网之间的功率交换,正数代表从主电网购电,负数代表向主电网反馈电能;
II)能量管理系统控制目标设为微电网运行花费最小以及与主网交换功率波动最小双重目标,在实时电价环境下,微电网获得最高效益的同时减小负荷与生产不平衡造成的峰谷差值,优化目标如下:



其中,C(t)为各时段微电网运行的总花费;γ(t)为每个调度时段主电网的实时电价;Δ为每次的调度时间范围;SoC(t)为储能系统的荷电状态,要求约束在一定范围内以保证电池的使用寿命;储能系统的充放电功率PESS(t)和可再生能源发电的总出力PRES(t)根据微电网具体配置而限定;T为总的时段数。


4.根据权利要求1所述的基于双Q值网络深度强化学习的微电网能量调度方法,其特征在于:步骤(2.1)中,在每个时段从数据采集与监视控制系统获得能够表征微...

【专利技术属性】
技术研发人员:高强毕文正朱逸芝张晶李建飞藏玉清陈迪雨董伟杨强
申请(专利权)人:国网浙江省电力有限公司台州供电公司浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1