基于深度强化学习的城轨混合储能系统功率动态分配控制方法技术方案

技术编号:30787046 阅读:18 留言:0更新日期:2021-11-16 07:49
本发明专利技术针对城市轨道交通牵引制动时大功率、大能量需求引起的牵引网电压安全问题,结合超级电容高功率密度、电池短时大能量的优势,采用车载式超级电容与地面式电池组成的混合储能系统平抑直流牵引网功率波动,实现“削峰填谷”。并在此基础上发明专利技术一种基于深度强化学习的城轨混合储能系统功率动态分配控制方法,用于提高直流牵引网节能稳压特性以及实现储能元件寿命保护。设计在线学习

【技术实现步骤摘要】
基于深度强化学习的城轨混合储能系统功率动态分配控制方法


[0001]本专利技术涉及的是一种城市轨道交通储能、节能
,具体的说就是一种基于深度强化学习的城轨混合储能系统功率动态分配控制方法。

技术介绍

[0002]地铁运行区间距离短,启动、制动频繁,牵引加速阶段需要较大的启动功率,其制动时会产生大量的再生制动能量,常采用储能的方式回收多余的制动能量并用于列车牵引启动,以达到节能效果。由于单一器件的储能系统难以满足城轨大功率、大能量的双重需求,为抑制牵引网功率波动,结合超级电容高功率密度、电池短时大能量的特性,采用车载式超级电容与地面式电池组成的混合储能系统平抑直流牵引网功率波动,实现“削峰填谷”。通过合理的控制策略在实现混合储能系统能量最优管理的同时可以有效稳定直流牵引电压、回收制动能量。然而,频繁的列车制动、启动工况往往对储能元件寿命造成影响,因此如何通过储能元件之间的能量协调控制以实现较好的节能稳压效果以及储能寿命保护,是技术人员目前需要考虑解决的技术问题。

技术实现思路

[0003]技术问题:为实现永磁牵引供电环境与混合储能系统的再生制动能量循环,如何通过控制实现车载超级电容和地面电池的最优能量管理,从而达到牵引供电网络稳定、节能的同时实现储能元件寿命保护是目前需要考虑解决的技术问题。
[0004]技术方案:针对上述问题,本专利技术采用车载式超级电容与地面式电池组成混合储能系统能量结构,将混合储能系统能量管理优化问题建模为序贯决策优化过程,并通过引入永磁牵引系统与混合储能系统的协调控制策略,以实现牵引功率的平滑与实时分配。在此基础上,专利技术一种变优先级经验回放机制的深度强化学习算法,在列车不同运行工况下对各经验样本的优先级进行自适应变化,且在经验回放池中按优先级顺序学习经验样本,以提高寻优效率与正确率,最终以实现能量管理策略的序贯控制。然后,设计在线学习

在线序贯决策方法,在系统存在模型误差和参数变化的情况下实现控制算法的快速学习与在线优化。
[0005]本专利技术提出的基于深度强化学习的城轨混合储能系统功率动态分配控制方法,其该方法采用基于变优先级经验回放的深度强化学习算法,对经验池进行变优先级概率经验回放训练,从而提高了智能体的训练效率与寻优正确率。并进一步设计在线学习

在线序贯决策方法,通过智能体(Agent)“试错”和“反馈”的机制进行策略在线学习与优化,最终结合低通滤波器实现混合储能功率实时分配,在有效提高牵引网节能稳压特性的同时合理控制车载超级电容充放电电流,防止过冲、过放现象,从而延长储能元件寿命。本专利技术实现如下:
[0006]首先,设计永磁牵引系统与混合储能系统能量协调策略。车载超级电容主要用于完成永磁牵引能量交换,地面电池用于承担低频功率指令并辅助供电。地面电池采用电压
电流双环级联控制,车载超级电容在此基础上增加了牵引功率前馈。
[0007]以电池为例,通过给定充电电压阈值U
bat_char
、放电电压阈值U
bat_dis
与实时反馈牵引网电压U
dc
差值比较,然后经PI控制器再与反馈的电池电流i
bat
差值比较最终通过PWM控制得到驱动BDC开关器件的占空比D。考虑到电池元件保护,进一步引入电池限流保护环节K
c
,通过限制电池充电电流变化速率k
c_char
以及放电电流变化速率k
c_dis
从而有效地平滑电池电流的给定值,使其更好地承担低频负荷,实现电池过充过放保护。
[0008]在传统深度强化学习算法中,经验回放机制在消除数据样本之间关联性的同时能够提高样本利用率,但经验池中的历史数据(s
t
,a
t
,r,s
t+1
)(当前状态、动作、奖励、下一状态),在学习时是均匀随机抽样的,而在智能体(Agent)与环境交互产生的经验样本中,首先临近的某些样本数据本身就强相关,其次不同数据对梯度学习的贡献可能会不同,这些都会导致学习效率低,甚至过拟合。
[0009]传统的优先经验回放基于时序差分|TD

error|的方法,表示在时序差分中当前的动作价值函数Q

值与目标价值函数Q的差值,如式(1)所示。训练的目标是让|TD

error|的期望尽可能小,因此常通过其大小来确定优先级排序rank
i
以及经验回放概率p
i
,如式(2)所示。
[0010][0011][0012]其中,rank
i
表示从第i个经验开始从大到小的排名,排名从1开始。r(s
t
,a
t
)为t时刻反馈的奖励回报,γ为奖励折扣,Q'(s
t+1
,a
t+1
)为t+1时刻的动作价值,Q(s
t
,a
t
)为t时刻的动作价值。p
i
表示经验回放概率。
[0013]本专利技术在双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic policy gradient,TD3)的基础上,设计一种基于变优先级经验回放的的深度强化学习算法(Variable priority experience replay twin delayed deep deterministic policy Gradient,V

TD3),其创新点在于对不同工况下对各经验样本的优先级进行自适应变化。在网络模型学习过程中,根据优先级的变化采用不同的概率从经验池中选取每批次样本数据。优先级权值β
st
设置如下:
[0014][0015]其中,β
st
为各工况下样本所占权重,T为系统运行总时长,S
t
表示运行工况,分别包括恒加速

恒功率牵引

惰行

制动四种工况,t
i
为系统运行在各工况下的时间。
[0016]然后根据实际工况变化设置经验池差值l如(4)所示,训练的目的在于不同运行工况下的l均能达到最小,并根据差值l的大小变化来确定优先级排序rank
v

[0017][0018]最终,通过变优先级排序rank
v
设置样本回放概率p
v
,如式(5)所示:
[0019][0020]所设计V

TD3方法中对于重要性程度高的经验样本,每批次以较大的概率选取,同时为保证样本数据多样性,每批次以较小的概率选取少量立即奖励值小、重要性程度低的经验样本。考虑深度强化学习算法在城轨混合储能上的控制应用,分别设计环境状态、智能体动作、奖励函数。
[0021]1)永磁牵引供电环境及状态表征设计:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的城轨混合储能系统功率动态分配控制方法,其特征在于该方法采用基于变优先级经验回放的深度强化学习算法,对经验池进行变优先级概率经验回放训练,从而提高了智能体的训练效率与寻优正确率;并进一步设计在线学习

在线序贯决策方法,通过智能体(Agent)“试错”和“反馈”的机制进行策略在线学习与优化,最终结合低通滤波器实现混合储能功率实时分配,在有效提高牵引网节能稳压特性的同时合理控制车载超级电容充放电电流,防止过冲、过放现象,从而延长储能元件寿命;本发明实现如下:首先,设计永磁牵引系统与混合储能系统能量协调策略;车载式超级电容主要用于完成永磁牵引能量交换,地面式电池用于承担低频功率指令并辅助供电;地面电池采用电压电流双环级联控制,车载超级电容在此基础上增加了牵引功率前馈;以电池为例,通过给定充电电压阈值U
bat_char
、放电电压阈值U
bat_dis
与实时反馈牵引网电压U
dc
差值比较,然后经PI控制器再与反馈的电池电流i
bat
差值比较最终通过PWM控制得到驱动BDC开关器件的占空比D;考虑到电池元件保护,进一步引入电池限流保护环节K
c
,通过限制电池充电电流变化速率k
c_char
以及放电电流变化速率k
c_dis
从而有效地平滑电池电流的给定值,使其更好地承担低频负荷,实现电池过充过放保护;在传统深度强化学习算法中,经验回放机制在消除数据样本之间关联性的同时能够提高样本利用率,但经验池中的历史数据(s
t
,a
t
,r,s
t+1
)(当前状态、动作、奖励、下一状态),在学习时是均匀随机抽样的,而在智能体(Agent)与环境交互产生的经验样本中,首先临近的某些样本数据本身就强相关,其次不同数据对梯度学习的贡献可能会不同,这些都会导致学习效率低,甚至过拟合;传统的优先经验回放基于时序差分|TD

error|的方法,表示在时序差分中当前的动作价值函数Q

值与目标价值函数Q的差值,如式(1)所示;训练的目标是让|TD

error|的期望尽可能小,因此常通过其大小来确定优先级排序rank
i
以及经验回放概率p
i
,如式(2)所示;,如式(2)所示;其中,rank
i
表示从第i个经验开始从大到小的排名,排名从1开始;r(s
t
,a
t
)为t时刻反馈的奖励回报,γ为奖励折扣,Q'(s
t+1
,a
t+1
)为t+1时刻的动作价值,Q(s
t
,a
t
)为t时刻的动作价值;p
i
表示经验回放概率;本发明在双延迟深度确定性策略梯度算法(TD3)的基础上,设计一种基于变优先级经验回放的的深度强化学习算法(V

TD3),其创新点在于对不同工况下对各经验样本的优先级进行自适应变化;在网络模型学习过程中,根据优先级的变化采用不同的概率从经验池中选取每批次样本数据;优先级权值β
st
设置如下:
其中,β
st
为各工况下样本所占权重,T为系统运行总时长,S
t
表示运行工况,分别包括恒加速

恒功率牵引

惰行

制动四种工况,t
i
为系统运行在各工况下的时间;然后根据实际工况变化设置经验池差值l如(4)所示,训练的目的在于不同运行工况下的l均能达到最小,并根据差值l的大小变化来确定优先级排序rank
v
;最终,通过变优先级排序rank
v
设置样本回放概率p
v
,如式(5)所示:所设计V

TD3方法中对于重要性程度高的经验样本,每批次以较大的概率选取,同时为保证样本数据多样性,每批次以较小的概率选取少量立即奖励值小、重要性程度低的经验样本;考虑深度强化学习算法在城轨混合储能上的控制应用,分别设计环境状态、智能体动作、奖励函数;1)永磁牵引供电环境及状态表征设计:由于在V

TD3算法训练过程中,每一步动作施加至环境后,环境将反馈更新的状态到智能体中;因此,在混合储能系统(HESS)功率分配策略中,将HESS能量管理系统视为学习和决策的Agent,整个永磁牵引供电系统视为Agent所处的环境;Agent感知环境和自身状态,执行特定的动作,从而影响环境的状态并使得环境生成相应的奖励信号;并根据获得的反馈信号对策略进行改进,以实现整个时间段内累计奖励最大化;由于列车制动时瞬时大功率、短时大能量的特性,在实现稳压节能的同时需要考虑混合储能系统的寿命保护,因此选取直流牵引电压U
dc
、混合储能功率给定P
hess_ref
、超级电容荷电状态SOC
uc
、电池荷电状态SOC
bat
、列车运行速度ω以及加速度a
c
作为Agent观测到环境所处的状态S(state),状态空间表...

【专利技术属性】
技术研发人员:王欣秦斌罗颖冰秦羽新
申请(专利权)人:湖南工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1