当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法技术

技术编号:36045802 阅读:15 留言:0更新日期:2022-12-21 10:53
本发明专利技术公开了一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法,针对串联式新能源汽车,基于多智能体深度确定性策略梯度算法,融合自适应巡航控制(ACC)和能量管理策略(EMS),开发了一种集成式的生态驾驶框架。主要步骤包括构建仿真环境,加载训练数据;构建两个智能体ACC和EMS,并搭建Actor、Critic网络及目标网络;训练生态驾驶策略,获得可继承的网络参数;加载网络参数至整车控制器,实现在线应用。本方法利用两个异构智能体解耦并优化不同领域的目标,避免权重不协调的负面影响;采用改进的优先经验回放技术,提高了算法的性能;对多种交通工况具有良好的适应性;在实现最佳跟驰性能的前提下降低了综合行驶成本。本。本。

【技术实现步骤摘要】
一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法


[0001]本专利技术属于新能源汽车生态驾驶领域,具体涉及一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法。

技术介绍

[0002]随着汽车保有量的增加,化石燃料危机和环境污染问题不断加剧,交通行业迫切需要探索节能减排的有效解决方案。车辆的技术和使用是影响车辆排放和油耗的两个主要因素,而具有内燃机和动力电池组双能源的新能源汽车(HEV),相比于传统的燃油车具有碳排放量更少、燃油经济效益更高的优点,已经成为交通领域实现节能减排的首选方案。
[0003]生态驾驶(Eco

driving)是汽车的一种高级应用方式。在完成特定场景下交通任务的前提下,通过改善驾驶行为实现节油减排和维持HEV车载动力电池组健康,其节能潜力高达15%。可见,生态驱动在混合动力电动汽车中的应用对于节约能源和延长动力电池组寿命具有重要意义。
[0004]新能源汽车(HEV)作为一种重要的新能源汽车类型,其能量源包括化石燃料产生的热能和电池存储的电能两部分,能量管理策略目的是在车辆运行期间提高燃油经济性并维持电池电量状态。自适应巡航控制用于城市道路和高速公路的车辆巡航跟驰场景,目的在于提高跟驰车辆的运行效率和燃油经济性。当前,深度强化学习分别被用于能量管理策略的优化和巡航跟驰的动力学控制,但两者是针对同一问题的两个不同模型,时间和空间尺度上的维度不同,无法实现全局最优。

技术实现思路

[0005]为了解决上述
技术介绍
提到的技术问题,本专利技术提出了一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法。
[0006]为了实现上述技术目的,本专利技术的技术方案为:
[0007]一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法,包括以
[0008]下步骤:
[0009]S1、构建仿真环境和跟驰模型,预加载动力电池特性曲线和最佳燃油经济曲线作为先验知识以搭建新能源汽车模型;输入混合工况下的车辆行驶数据;用作跟驰模型中领航车的行驶数据;
[0010]S2、基于MADDPG算法创建自适应巡航控制智能体和能量管理智能体,并分别为每个智能体创建Actor网络、Critic网络以及Actor网络和Critic网络的各自对应的目标网络,设定状态空间、动作空间和奖励函数;
[0011]S3、智能体与环境交互,基于步骤S2中构建的智能体网络和奖励函数,通过改进的MADDPG算法对神经网络进行离线训练:每个智能体根据当前环境状态同时选择并同步执行控制动作,环境进入新的状态,并反馈奖励给各智能体,最终获得可继承的参数化生态驾驶
策略;
[0012]S4、将步骤S3中得到的参数化神经网络策略加载到新能源汽车的整车控制器中,目标域新能源汽车执行训练完成的生态驾驶策略,即在跟驰场景下的自适应巡航控制策略和能量管理策略。
[0013]优选地,步骤S1具体包括以下步骤:
[0014]S11、用PYTHON语言搭建跟驰模型和能量管理策略仿真环境,通过交互接口获取并控制仿真场景中车辆的速度和加速度,并通过由二阶RC电模型、双态热模型和能量吞吐老化组成的电



老化模型来模拟车载锂离子电池组,求解任意时刻锂离子电池组的电池健康度SoH值;
[0015]二阶RC电和双态热模型被耦合以预测LIB的电热动力学,其中电模型的电压源描述了取决于荷电状态SoC的开路电压,而Rs是总等效欧姆电阻;LIB在工作时内部存在一些极化效应,如电荷转移、扩散现象和电极上的钝化层效应;两个RC支路用于模拟上述情况,电模型的控制方程由给出:
[0016][0017][0018][0019]V
t
(t)=V
oc
(SoC)+V
p1
(t)+V
p2
(t)+R
s
(t)I(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0020]其中,I(t)和V
t
(t)是时间步t时的负载电流和端电压,V
p1
和V
p2
分别是RC支路两端的极化电压;
[0021]S12、对能量管理策略仿真环境输入先验知识包括电池特性曲线和最佳燃油经济曲线,通过对电池特性曲线和最佳燃油经济曲线插值拟合的方法获得显式函数关系,包括发动机转速、扭矩与效率的函数关系和开路电压与SoC值的函数关系,利用上述函数关系求解任意时刻和状态下的电池开路电压值和发动机效率;
[0022]S13、输入混合工况数据作为跟驰模型中领航车的行驶信息,并创建一种融合中国轻型汽车试验循环

乘用车和公路燃油经济性试验循环的混合循环以测试步骤S3中获得的经过训练获得参数化生态驾驶策略的鲁棒性。优选地,所述混合工况包括低到中速和高速条件的混合循环、由城郊循环工况、美国西弗吉尼亚大学制定的郊区和洲际循环工况,平均速度为33km/h,最大速度为98km/h,持续时长为4619s。
[0023]优选地,步骤S2中自适应巡航控制智能体公式表达如下:
[0024][0025][0026]式中,v
h
(t)为跟驰模型中的主车速度,v
l
(t)为跟驰模型中的领航车速度,a
l
(t)为跟驰模型中的领航车加速度,L
l
(t)为领航车的行驶里程,L
h
(t)为主车的行驶里程,D
h,l
(t)为领航车和主车之间的距离;D
max
为领航车和主车的最大距离,D
safe
为领航车和主车的安全距离;D
h,l
(t)≥D
safe
,t
d
是驻车制动延迟和反应时间之和,取值为1.5s,d0是主车停止后与前车的安全距离,取值为3m,a
max
是紧急情况下的最大加速度,取值为6.68m/s2。
[0027]优选地,步骤S2中能量管理智能体包括发动机发电机组子模型和车载锂离子电池组子模型,设置电机驱动力在两个车轴之间均匀分配,根据车辆的加速度和速度计算需求的总功率P
req
,公式表达如下:
[0028][0029]式中,v为车辆的速度,F
req
为车辆所需的总牵引力,F
a
为惯性力,F
r
为滚动阻力,F
i
为道路坡度阻力,F
w
为空气阻力,m为车辆的质量,a为车辆的加速度,μ为滚动阻力系数,μ取值为0.01,C
d
为空气阻力系数,取值为0.65,θ为道路坡度,设置为0;
[0030]发动机发电机组子模型在接收到控制信号后根据效率图建立准静态燃油和功率消耗模型,发动机和发电机之间的转换公式表达如下:
[0031]T
eng
=T<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法,其特征在于,包括以下步骤:S1、构建仿真环境和跟驰模型,预加载动力电池特性曲线和最佳燃油经济曲线作为先验知识以搭建新能源汽车模型;输入混合工况下的车辆行驶数据;用作跟驰模型中领航车的行驶数据;S2、基于MADDPG算法创建自适应巡航控制智能体和能量管理智能体,并分别为每个智能体创建Actor网络、Critic网络以及Actor网络和Critic网络的各自对应的目标网络,设定状态空间、动作空间和奖励函数;S3、智能体与环境交互,基于步骤S2中构建的智能体网络和奖励函数,通过改进的MADDPG算法对神经网络进行离线训练:每个智能体根据当前环境状态同时选择并同步执行控制动作,环境进入新的状态,并反馈奖励给各智能体,最终获得可继承的参数化生态驾驶策略;S4、将步骤S3中得到的参数化神经网络策略加载到新能源汽车的整车控制器中,目标域新能源汽车执行训练完成的生态驾驶策略,即在跟驰场景下的自适应巡航控制策略和能量管理策略。2.根据权利要求1所述一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法,其特征在于,步骤S1具体包括以下步骤:S11、用PYTHON语言搭建跟驰模型和能量管理策略仿真环境,通过交互接口获取并控制仿真场景中车辆的速度和加速度,并通过由二阶RC电模型、双态热模型和能量吞吐老化组成的电



老化模型来模拟车载锂离子电池组,求解任意时刻锂离子电池组的电池健康度SoH值;二阶RC电和双态热模型被耦合以预测LIB的电热动力学,其中电模型的电压源描述了取决于荷电状态SoC的开路电压,而Rs是总等效欧姆电阻;LIB在工作时内部存在一些极化效应,如电荷转移、扩散现象和电极上的钝化层效应;两个RC支路用于模拟上述情况,电模型的控制方程由给出:出:出:V
t
(t)=V
oc
(SoC)+V
p1
(t)+V
p2
(t)+R
s
(t)I(t)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,I(t)和V
t
(t)是时间步t时的负载电流和端电压,V
p1
和V
pC
分别是RC支路两端的极化电压;S12、对能量管理策略仿真环境输入先验知识包括电池特性曲线和最佳燃油经济曲线,通过对电池特性曲线和最佳燃油经济曲线插值拟合的方法获得显式函数关系,包括发动机转速、扭矩与效率的函数关系和开路电压与SoC值的函数关系,利用上述函数关系求解任意时刻和状态下的电池开路电压值和发动机效率;
S13、输入混合工况数据作为跟驰模型中领航车的行驶信息,并创建一种融合中国轻型汽车试验循环

乘用车和公路燃油经济性试验循环的混合循环以测试步骤S3中获得的经过训练获得参数化生态驾驶策略的鲁棒性。3.根据权利要求2所述一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法,其特征在于,所述混合工况包括低到中速和高速条件的混合循环、由城郊循环工况、美国西弗吉尼亚大学制定的郊区和洲际循环工况,平均速度为33km/h,最大速度为98km/h,持续时长为4619s。4.根据权利要求1所述一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法,其特征在于,步骤S2中自适应巡航控制智能体公式表达如下:法,其特征在于,步骤S2中自适应巡航控制智能体公式表达如下:式中,v
h
(t)为跟驰模型中的主车速度,v
l
(t)为跟驰模型中的领航车速度,a
l
(t)为跟驰模型中的领航车加速度,L
l
(t)为领航车的行驶里程,L
h
(t)为主车的行驶里程,D
h,l
(t)为领航车和主车之间的距离;D
max
为领航车和主车的最大距离,D
safe
为领航车和主车的安全距离;D
h,l
(t)≥D
safe
,t
d
是驻车制动延迟和反应时间之和,取值为1.5s,d0是主车停止后与前车的安全距离,取值为3m,a
max
是紧急情况下的最大加速度,取值为6.68m/s2。5.根据权利要求1所述一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法,其特征在于,步骤S2中能量管理智能体包括发动机发电机组子模型和车载锂离子电池组子模型,设置电机驱动力在两个车轴之间均匀分配,根据车辆的加速度和速度计算需求的总功率P
req
,公式表达如下:式中,v为车辆的速度,F
req
为车辆所需的总牵引力,F
a
为惯性力,F
r
为滚动阻力,F
i
为道路坡度阻力,F
w
为空气阻力,m为车辆的质量,a为车辆的加速度,μ为滚动阻力系数,μ取值为0.01,C
d
为空气阻力系数,取值为0.65,θ为道路坡度,设置为0;发动机发电机组子模型在接收到控制信号后根据效率图建立准静态燃油和功率消耗模型,发动机和发电机之间的转换公式表达如下:T
eng
=T
gen
,W
eng
=W
gen
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
式中,T
eng
和T
gen
分别为发动机和发电机的扭矩,W
eng
和W
gen
分别为发动机和发电机的转速;根据当前的扭矩和转速,分别通过效率图得到发动机燃油消耗和发电机的效率,进而计算出输出功率值,公式表达如下:式中,P
eng
为发动机功率,P
gen
为发电机的功率,η
gen
为发电机的效率;发动机的燃油消耗率公式表达为:式中,G汽油热值,取值为4.25
×
107J/kg;发动机和发电机还满足转矩和转速的边界约束,公式表达如下:式中,和分别为发动机扭矩的最小值和最大值,和分别为发电机扭矩的最小值和最大值,和分别为发动机转速的最小值和最大值,和分别为发电机转速的最小值和最大值;电力牵引所需的动力来自发电机和锂离子电池组,通过能量管理策略在满足以下条件的前提下协调EGS和LIB之间的功率P
req
分配,公式表达如下:P
req
=(P
batt
+P
gen
)
·
η
inv
ꢀꢀꢀꢀꢀꢀꢀ
(12)式中,η
inv
表示假设完全采用再生制动时逆变器的效率;构建双态热模型,公式表达如下:构建双态热模型,公式表达如下:构建双态热模型,公式表达如下:式中,T
s
(t)、T
c
(t)、T
a
(t)和T
f
(t)分别为电池表面温度、核心温度、内部平均温度和环境温度;计算欧姆热、极化热和不可逆熵热共同影响的生热率由H(t),公式表达如下:H(t)=T(t)[V
p1
(t)+V
p2
(t)+R
s
(t)I(t)]+I(t)[T
a
(t)+273]E
n
(SoC,t) (16)式中,E
n
表示电化学反应过程中的熵变;构建能量吞吐模型评估锂离子电池组退化情况,电池动态健康度公式表达如下:其中N(c,T
a
)是车载锂离子电池组达到其寿命终点之前的等效周期数,c为放电倍率,将公式(17)改变成离散形式,公式表达如...

【专利技术属性】
技术研发人员:彭剑坤陈伟琪周嘉璇何洪文范毅魏中宝马春野
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1