【技术实现步骤摘要】
一种基于深度强化学习的移动储能充放电时空规划方法
[0001]本专利技术涉及移动式储能系统优化配置技术,具体涉及一种基于深度强化学习的移动储能充放电时空规划方法,通过深度强化学习和受限马尔科夫过程的建模,建立移动储能系统充放电时空规划在线决策网络模型,对移动式储能系统的充放电决策、充放电功率、充放电地点路径进行学习,训练一个包含四个神经网络的两级决策网络,从而对移动储能系统优化配置进行在线决策。
技术介绍
[0002]现有储能技术主要解决储能优化配置技术,电价差反映了全电网或者局部的电力不足或盈余,储能优化配置技术可带来的好处,比如降低了尖峰负荷,在电力不足电价较高时放电,从而减轻了电网压力。现有储能优化配置应用技术中,存在灵活性不足、决策效率低或精度不足、决策滞后等问题。现有技术多采用固定式储能系统,或依赖于已有的交通网络,比如铁路网络,缺乏足够的灵活性。现有解决技术方案中以求解器求解整数规划模型或大规模求解方法比如Benders分解等方法为主,这些技术存在的不足包括:首先建模困难,需要考虑多种约束;其次,求解时不能兼具求 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的移动储能充放电时空规划方法,对于移动储能系统,建立用于充放电选择、充放电地点确定、充放电功率决策的离散连续混合动作空间和移动储能系统状态空间;基于值网络和策略网络深度神经网络构建移动储能充放电时空规划网络模型;通过深度强化学习和受限马尔科夫过程的建模和模型训练,对移动式储能系统的充放电决策、充放电功率、充放电地点路径进行学习,对移动储能系统充放电优化配置进行在线时空规划决策;包括以下步骤:1)确立移动储能充放电时空规划优化目标函数以及相应的约束,包括电量约束和功率约束;目标函数表示为:其中,其中,表示充放电时空规划优化目标为储能收益最大化;为移动储能系统的充放电收益;为移动储能系统在不同地点之间的移动成本,为移动储能系统老化成本;决策变量包括时刻系统在位置的充电功率,放电功率,从当前位置到下一位置的时间;其中:其中为充放电效率,为当前时间地点的电价;H为时间槽集合;为充电站地点集合;为将时间划分成的时间槽;其中为常数,表示单位时间的移动成本;其中为与充放电量相关的常数;为充电功率;为放电功率;移动储能系统的主要约束包括电量容量约束和充放电功率约束,均不可超过其最大值,不可小于其最小值,表示为:最小值,表示为:其中,为时刻的剩余电量;为最低容量限制;为最大电池容量;和分别为时刻的充电功率和放电功率;为最大充放电功率;2)设计获取移动储能系统的状态空间信息,包括:电价、电量、电量成本、充放电位置空间信息;时刻的状态空间由公式描述,其中为时刻的剩余电量,
代表剩余电量的平均成本,代表电价,分别表示地点和时刻;动作空间由公式表示,为充放电选择,包括充电、放电、保持;为相应的功率;设计移动储能系统的奖励函数,表示为如下形式:其中,为奖励函数;为电价,为放电功率;充电、放电和保持的状态转移方程分别如下公式所示:充电、放电和保持的状态转移方程分别如下公式所示:充电、放电和保持的状态转移方程分别如下公式所示:其中,是神经网络的决策;下标表示下一个决策时刻;设计移动储能系统在电池容量边界时的网络模型学习方法:使用镜像下降和梯度投影的方法,将超出可行域的电池容量解重新投影到可行域中,并利用布莱格曼散度来确定投影位置;最佳投影点为边界点,即电池容量边界,且为收敛点,即解出的电池电量为可行解;投影点即可行的电池电量的计算方式如下:其中,为电池电量解;为镜像投影方向,为不可行的电池电量解;argmin为求
使得目标最小参数取值;为二范数;3)基于深度强...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。