一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法技术

技术编号:34735456 阅读:25 留言:0更新日期:2022-08-31 18:25
本发明专利技术公开了一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法,属于燃料电池混合动力能量管理领域,所构建的策略迁移技术可以有效利用其他车型的车辆能量管理策略,提高迁移后代理模型的训练收敛速度和汽车燃油经济性。本发明专利技术方法主要包括:建立两种显著不同的燃料电池汽车模型;建立基于策略迁移的深度确定性策略梯度代理模型;针对一种车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略;迁移策略至新的车型上,继续训练DDPG代理模型,利用最终训练完成的DDPG代理进行新车型的能量管理。行新车型的能量管理。行新车型的能量管理。

【技术实现步骤摘要】
一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法


[0001]本专利技术属于燃料电池混合动力能量管理领域,尤其涉及一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法。

技术介绍

[0002]随着化石燃料的消耗与CO2排放总量快速上升,由于全球石油储量不断减少,环境污染问题和能源短缺问题日益严重,导致全球各地的排放规定日益严格,迫切需要生产更多的节能汽车。燃料电池汽车将燃料中的自由能量直接转化为电能,具有行驶里程长、充电周期短的优点。燃料电池混合动力汽车具有多种输入能量来源和工作模式的多样性的特点。因此,实现燃料电池混合动力汽车高效的能量管理至关重要。
[0003]混合动力车辆能量管理算法主要可以分为基于规则的策略、基于优化的策略和基于学习的策略三个大类。基于规则的策略计算量小,在工程实践中应用广泛,但其过于依赖工程师经验,且对不同驾驶工况和车型的可移植性差;基于优化的策略可分为全局优化和实时优化,前者不适合应用在实时控制的场景,后者仍依赖于未来工况信息等先验知识和参数的调节,且易于陷入局部最优。
[0004]目前深度强化学习在燃料电池能量管理方面是一种较有潜力的机器学习方法,然而现有技术中的方法存在一些缺点。这类能量管理策略研究基本集中于对某一特定车型的特定目标的案例研究,难以适应其它车型,同时所需训练时间较长,所以为了加速混合动力汽车能量管理策略的开发,提高训练效率,减少成本,能量管理策略的可移植性对车企具有重要意义。

技术实现思路

[0005]本专利技术提供了一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法,通过策略迁移方法有效利用其他车型车辆的能量管理策略,加速车辆能量管理策略的开发速度,而且可以提升汽车燃油经济性和在不同工况下的泛化性能。
[0006]为了实现以上目的,本专利技术采用以下技术方案:
[0007]一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法,包括以下步骤:
[0008]步骤1:模拟实际开发情况,建立两种显著不同的燃料电池汽车模型;
[0009]步骤2:建立基于策略迁移的DDPG代理模型,设置DDPG代理模型的状态、动作和奖励,得到设置后的DDPG代理模型;
[0010]步骤3:针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略;
[0011]步骤4:迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型;
[0012]步骤5:利用步骤4得到的基于策略迁移的DDPG代理模型进行新车型的能量管理。
[0013]以上所述步骤中,步骤1中所述两种显著不同的燃料电池汽车模型分别为以燃料电池/电池/超级电容的物流卡车与以燃料电池/电池的b级轿车,前者作为源域,后者作为目标域,两个模型均包括汽车动力学模型、燃料电池、电机及电池,不同的是物流卡车模型多包含了超级电容。
[0014]所述汽车动力学模型如下公式所示:
[0015][0016]其中,v为车辆的速度;f为滚动电阻系数;C
D
为气动阻力系数;A为车辆前部区域;ρ为空气密度;a为物流车辆的加速度;α是道路的坡度;m是车辆质量;
[0017]所述燃料电池模型采用Amphlett静态模型进行描述。过电位损耗由激活过电位Vact、欧姆过电位Vohm和浓度过电位Vcon三部分组成,其计算公式为:
[0018][0019]其中ξ1,ξ2,ξ3,ξ4和B是由制造商提供的预校准系数;T是温度;I
st
是当前堆栈值;是阴极催化剂层的氧浓度;R
st
为堆叠的等效电阻;J和J
max
分别表示电流密度的实际极限和最大极限;
[0020]所述电机模型如下公式所示:
[0021][0022]η
m
=LUT(T
mot

mot
)
[0023]其中,P
req
是牵引功率;P
mot
是MFC和锂离子电池提供的电机功率;T
mot
和ω
mot
分别为电机的转矩和转速;LUT代表采用查表法,利用T
mot
和ω
mot
的实验数据确定效率η
m

[0024]所述电池模型如下公式所示:
[0025][0026]式中,R
bat
、U
ref
、V
oc
、I
bat
、R
int
分别表示电池的开路电阻、额定电压、开路电压、电流、内阻;P
bat
为要求电池功率,放电功率为正值,充电功率为负值;P
loss
为损失功率;
[0027]所述超级电容模型如下公式所示:
[0028][0029]其中,N为单元的个数;Q
cell
为每个单元的电量;SOC
SC
(t
k
)、SOC
SC
(t
k
‑1)分别为超级电容瞬时SOC变化、当前SOC和上一时刻SOC;I
SC
为超级电容电流;
[0030]步骤2中所述基于策略迁移的DDPG代理模型的状态量为:汽车车速v、汽车加速度acc、动力电池SOC和超级电容SOC;动作变量为燃料电池功率P
FC
和动力电池功率P
bat
,状态变量和动作变量设置如下所示:
[0031][0032]奖励函数被用于评价在当前状态下执行动作的表现性能,本专利技术中越小越好,为行驶成本C和SOC惩罚项之和,奖励函数如下公式所示:
[0033][0034]其中,C为车辆行驶成本,α和β为权重因子;SOC
bat
和SOC
SC
分别为动力电池SOC和超级电容SOC;SOC
bat_ref
和分别为动力电池SOC和超级电容SOC的参考值;
[0035]上述步骤中采用了一种虚拟变量的方法,以满足在迁移策略时,两种车型车辆的DDPG代理模型的状态量、动作量必须相同的条件,此方法为b级轿车的状态量、动作量增加了一个虚拟维度,并用一个定值来替代原本的超级电容SOC和动力电池功率P
bat

[0036]步骤3针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略,具体包括以下步骤:
[0037]步骤A:初始化所述设置后的DDPG代理模型;
[0038]步骤B:将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集;
[0039]步骤C:使用训练数据集对DDPG代理模型进行训练,得到训练后的DDPG代理模型。
[0040]上述步骤A具体包括:用权重θ
Q
和θ
μ
分别初始化D本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,包括以下步骤:步骤1:建立两种显著不同的燃料电池汽车模型;步骤2:建立基于策略迁移的DDPG代理模型,设置DDPG代理模型的状态、动作和奖励,得到设置后的DDPG代理模型;步骤3:针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略;步骤4:迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型;步骤5:利用步骤4得到的基于策略迁移的DDPG代理模型进行新车型的能量管理。2.根据权利要求1所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,步骤1中所述两种显著不同的燃料电池汽车模型为源域燃料电池汽车和目标域燃料电池汽车,源域燃料电池汽车模型均包括汽车动力学模型、燃料电池、电机、电池、超级电容;目标域燃料电池汽车包括汽车动力学模型、燃料电池、电机及电池。3.根据权利要求2所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,所述汽车动力学模型如下公式所示:其中,v为车辆的速度;f为滚动电阻系数;C
D
为气动阻力系数;A为车辆前部区域;ρ为空气密度;a为物流车辆的加速度;α是道路的坡度;m为车辆质量;所述燃料电池模型采用Amphlett静态模型进行描述,过电位损耗由激活过电位Vact、欧姆过电位Vohm和浓度过电位Vcon三部分组成,其计算公式为:其中ξ1,ξ2,ξ3,ξ4和B是由制造商提供的预校准系数;T是温度;I
st
是当前堆栈值;是阴极催化剂层的氧浓度;R
st
为堆叠的等效电阻;J和J
max
分别表示电流密度的实际极限和最大极限;所述电机模型如下公式所示:η
m
=LUT(T
mot

mot
)其中,P
req
是牵引功率;P
mot
是MFC和锂离子电池提供的电机功率;T
mot
和ω
mot
分别为电机的转矩和转速;LUT代表采用查表法,利用T
mot
和ω
mot
的实验数据确定效率η
m
;所述电池模型如下公式所示:式中,R
bat
、U
ref
、V
oc
、I
bat
、R
int
分别表示电池的开路电阻、额定电压、开路电压、电流、内
阻;P
bat
为要求电池功率,放电功率为正值,充电功率为负值;P
loss
为损失功率;所述超级电容模型如下公式所示:其中,N为单元的个数;Q
cell
为每个单元的电量;SOC
SC
(t
k
)、SOC
SC
(t
k
‑1)分别为超级电容瞬时SOC变化、当前SOC和上一时刻SOC;I
SC
为超级电容电流。4.根据权利要求1所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,步骤2中所述基于策略迁移的DDPG代理模型的状态量为:汽车车速v、汽车加速度acc、动力电池SOC和超级电容SOC;动作变量为燃料电池功率P
FC
和动力电池功率P
bat
,状态变量和动作变量设置如下所示:奖励函数被用于评价在当前状态下执行动作的表现性能,本发明中越小越好,为行驶成本C和SOC惩罚项之和,奖励函数如下公式所示:其中,C为车辆行驶成本,α和β为权重因子,;SOC
bat
和SOC
SC
分别为动力电池SOC和超级电容SOC;SOC
bat_ref
和分别为动力电池SOC和超级电容SOC的参考值。5.根据权利要求1所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,步骤3具体包括以下步骤:步骤A:初始化所述设置后的DDPG代理模型;步骤B:将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集;步骤C:使用训练数据集对DDPG代理模型进行训练,得到训练后的DDPG代理模型。6.根据权利要求5所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,步骤A具体包括:用权重θ
Q
和θ
μ
分别初始化DDPG代理模型中的当前Actor网络参数与Critic网络参数;用权重θ
Q

和θ
μ

初始化目标Actor网络参数与Critic网络参数;累计梯度θ
Qi


θ
Qi

【专利技术属性】
技术研发人员:徐达周健豪赵万忠李超雄吴旭阳
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1