当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于深度强化学习的移动储能充放电时空规划方法技术

技术编号:35728336 阅读:21 留言:0更新日期:2022-11-26 18:27
本发明专利技术公布了一种基于深度强化学习的移动储能充放电时空规划方法,对于移动储能系统,建立用于充放电选择、充放电地点确定、充放电功率决策的离散连续混合动作空间和移动储能系统状态空间;基于值网络和策略网络深度神经网络构建移动储能充放电时空规划网络模型;通过深度强化学习和受限马尔科夫过程的建模,训练包含四个神经网络的两级决策网络,对移动式储能系统的充放电决策、充放电功率、充放电地点路径进行学习,从而对移动储能系统优化配置进行在线决策,由此实现基于深度强化学习的移动储能充放电时空规划。本发明专利技术简化了移动储能系统充放电时空优化的建模步骤,加快移动储能配置优化决策速度,提高了经济收益。提高了经济收益。提高了经济收益。

【技术实现步骤摘要】
一种基于深度强化学习的移动储能充放电时空规划方法


[0001]本专利技术涉及移动式储能系统优化配置技术,具体涉及一种基于深度强化学习的移动储能充放电时空规划方法,通过深度强化学习和受限马尔科夫过程的建模,建立移动储能系统充放电时空规划在线决策网络模型,对移动式储能系统的充放电决策、充放电功率、充放电地点路径进行学习,训练一个包含四个神经网络的两级决策网络,从而对移动储能系统优化配置进行在线决策。

技术介绍

[0002]现有储能技术主要解决储能优化配置技术,电价差反映了全电网或者局部的电力不足或盈余,储能优化配置技术可带来的好处,比如降低了尖峰负荷,在电力不足电价较高时放电,从而减轻了电网压力。现有储能优化配置应用技术中,存在灵活性不足、决策效率低或精度不足、决策滞后等问题。现有技术多采用固定式储能系统,或依赖于已有的交通网络,比如铁路网络,缺乏足够的灵活性。现有解决技术方案中以求解器求解整数规划模型或大规模求解方法比如Benders分解等方法为主,这些技术存在的不足包括:首先建模困难,需要考虑多种约束;其次,求解时不能兼具求解效率和精度,在大规模问题下求解速度缓慢甚至无法求解;还存在决策滞后的问题。而且,这类技术方案需要全部的日前电价,无法考虑到电价的波动情况。
[0003]基于深度强化学习的方法不需要对复杂问题进行完整建模,通过对已有数据加噪声训练神经网络,可以得到用于实时决策的网络模型。储能系统充放电规划决策的动作空间包括:充电/放电选择、地点选择、功率选择,前两个为离散动作空间,功率选择为连续动作空间。而将现有的深度强化学习方法应用于储能充放电时空规划应用中,则只能解决离散动作的问题或连续动作空间的问题,例如只能决策充放电地点的选择和充放电的选择,或者充放电功率的决策,而无法同时决策移动式储能充放电配置问题中的离散连续混合动作空间问题。如果采用离散化连续动作空间的方法,同样会丧失求解的精度,使得储能规划与决策的精度不高、效率低下。

技术实现思路

[0004]针对目前现有技术中存在的储能优化配置中时空规划建模复杂、灵活性不足、决策效率低、无法实时在线决策等问题,本专利技术提供了一种基于深度强化学习方法的移动储能充放电时空规划在线决策方案,建立一种新的深度强化学习储能时空规划网络模型框架,利用多层级的神经网络学习移动储能系统(如储能车)的充放电相关决策,将训练好的网络模型作为移动储能充放电时空规划实时决策模型,从而快速高效地实现移动储能充放电时空规划。
[0005]具体地,本专利技术构建的深度强化学习储能时空规划网络模型包括基于电量、电价、电量成本、位置的状态空间,路径选择、充放电选择、充放电功率的动作空间,两层的值网络和策略网络,及其各自目标网络的四个神经网络,并考虑强化学习中智能体(即储能车)安
全探索方案的深度强化学习方法。在训练过程中,为了训练的稳定性和效率,本专利技术采用经验回放策略。通过本专利技术的方法进行移动储能决策,一方面能够有效降低方案复杂度,无需对原问题进行建模,快速得到解决方案;另一方面,能够在保证求解精度的同时,大幅降低求解时间,并能够应对电价的未知性情况。
[0006]本专利技术的技术方案是:一种基于深度强化学习的移动储能充放电时空规划方法,包括:由电动卡车、电池组、充电站和放电站组成的移动储能系统,基于深度强化学习的优化规划决策框架,包括由充放电选择(离散)、充放电地点确定(离散)、充放电功率决策(连续)的离散连续混合动作空间,由电池电量水平、电量成本、时间、充电站、电价等组成的移动储能系统状态空间,基于值网络和策略网络构成的二级深度神经网络构建移动储能时空优化规划调度网络模型等。本专利技术包含以下步骤:1)确立移动储能充放电时空优化目标函数,以及相应的电量、功率等约束;2)获取移动储能系统的状态空间信息,包括:电价、电量、电量成本、位置等状态空间信息;3)基于深度强化学习建立移动储能系统时空规划决策神经网络模型,根据1)中的目标函数设计奖励函数,将2)中的状态信息作为神经网络模型的输入,训练神经网络模型;4)利用上3)中训练好的神经网络模型作为移动储能在线时空规划决策模型,该模型在每一个决策点输出充放电选择、充放电地点选择以及确定相应的功率,由此实现基于深度强化学习的移动储能时空规划。
[0007]针对以上步骤,下面详细进行说明:1)确立移动储能充放电时空优化目标函数,以及相应的约束;移动储能系统时空配置规划优化的目标函数为收益最大化,计算收益包括三个部分:充放电收益、移动成本、老化成本。因此相应的目标函数表示为:其中,其中,表示储能收益最大化;为移动储能系统的充放电收益,为移动储能系统在不同地点之间的移动成本,为移动储能系统老化成本。决策变量包括时刻系统在位置的充电功率,放电功率,从当前位置到下一位置的时间。本专利技术将时间划分为多个时间槽,每个时间槽长度为15分钟,对于目标函数各部分,相应的计算方式如下:第一部分充放电收益为每个时间槽收益的总和,其中为充放电效率,为当前时间地点的电价;H为时间槽集合;为充电站地点集合。
[0008]第二部分移动成本为不同位置点之间移动成本的总和,其中为常数,表示单位时间的移动成本,本专利技术具体实施时取值为20$/h。
[0009]第三部分老化成本与充放电功率、时间相关,为各时间段老化成本的总和,其中为常数,与充放电量相关,本专利技术具体实施时取值为50$/MWh;为充电功率;为放电功率。
[0010]移动储能系统的主要约束包括电量容量约束和充放电功率约束,均不可超过其最大值,不可小于其最小值:大值,不可小于其最小值:其中,为时刻的剩余电量;为最低容量限制,一般设为0,为最大电池容量,设置为2.7WM。和分别为时刻的充电功率 放电功率,为最大充放电功率,任何时刻充放电功率须小于此值。
[0011]2)观测移动储能系统的状态,获取状态空间信息;本专利技术设计了全新的移动储能系统状态空间、动作空间和奖励函数。在每一个决策时间点(时刻),系统根据当前所在地点的电价、所在地点、当前时刻来确定下一个决策地点、充放电选择、相应的充放电功率。
[0012]时刻的状态空间由公式描述,其中为时刻的剩余电量,代表剩余电量的平均成本,代表电价,分别表示地点和时刻。动作空间由公式表示,其中为下一个地点的选择,为充放电选择,包括充电、放电、保持(不充不放),为相应的功率。在目标函数的基础上,本专利技术将奖励函数设计为如下形式:其中,为奖励函数;为电价,为放电功率。
[0013]充电、放电和保持的状态转移方程分别如下公式所示:
其中,是神经网络的决策。
[0014]移动储能充放电时空规划问题的最优解可能为边界解,因此本专利技术对移动储能系统在电池容量边界时的学习策略设计了一种方法:在更新网络的梯度下降过程中,电池电量可能会出现大于最高容量或小于最小容量的情况,本专利技术使用镜像下降和梯度投影的方法,将超出可行域的电池容量解重新投影到可行域中,并利用布莱格曼散度来确定投影位置。因为移动储能充放电时空规划问题中的安全约束为一维约束,且为紧闭集,容易本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的移动储能充放电时空规划方法,对于移动储能系统,建立用于充放电选择、充放电地点确定、充放电功率决策的离散连续混合动作空间和移动储能系统状态空间;基于值网络和策略网络深度神经网络构建移动储能充放电时空规划网络模型;通过深度强化学习和受限马尔科夫过程的建模和模型训练,对移动式储能系统的充放电决策、充放电功率、充放电地点路径进行学习,对移动储能系统充放电优化配置进行在线时空规划决策;包括以下步骤:1)确立移动储能充放电时空规划优化目标函数以及相应的约束,包括电量约束和功率约束;目标函数表示为:其中,其中,表示充放电时空规划优化目标为储能收益最大化;为移动储能系统的充放电收益;为移动储能系统在不同地点之间的移动成本,为移动储能系统老化成本;决策变量包括时刻系统在位置的充电功率,放电功率,从当前位置到下一位置的时间;其中:其中为充放电效率,为当前时间地点的电价;H为时间槽集合;为充电站地点集合;为将时间划分成的时间槽;其中为常数,表示单位时间的移动成本;其中为与充放电量相关的常数;为充电功率;为放电功率;移动储能系统的主要约束包括电量容量约束和充放电功率约束,均不可超过其最大值,不可小于其最小值,表示为:最小值,表示为:其中,为时刻的剩余电量;为最低容量限制;为最大电池容量;和分别为时刻的充电功率和放电功率;为最大充放电功率;2)设计获取移动储能系统的状态空间信息,包括:电价、电量、电量成本、充放电位置空间信息;时刻的状态空间由公式描述,其中为时刻的剩余电量,
代表剩余电量的平均成本,代表电价,分别表示地点和时刻;动作空间由公式表示,为充放电选择,包括充电、放电、保持;为相应的功率;设计移动储能系统的奖励函数,表示为如下形式:其中,为奖励函数;为电价,为放电功率;充电、放电和保持的状态转移方程分别如下公式所示:充电、放电和保持的状态转移方程分别如下公式所示:充电、放电和保持的状态转移方程分别如下公式所示:其中,是神经网络的决策;下标表示下一个决策时刻;设计移动储能系统在电池容量边界时的网络模型学习方法:使用镜像下降和梯度投影的方法,将超出可行域的电池容量解重新投影到可行域中,并利用布莱格曼散度来确定投影位置;最佳投影点为边界点,即电池容量边界,且为收敛点,即解出的电池电量为可行解;投影点即可行的电池电量的计算方式如下:其中,为电池电量解;为镜像投影方向,为不可行的电池电量解;argmin为求
使得目标最小参数取值;为二范数;3)基于深度强...

【专利技术属性】
技术研发人员:丁永康何冠楠宋洁陈新江
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1