当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于强化学习的电动汽车经济性自适应巡航控制方法及系统技术方案

技术编号:34258761 阅读:36 留言:0更新日期:2022-07-24 13:20
本发明专利技术提供了一种基于强化学习的电动汽车经济性自适应巡航控制方法及系统,所述方法包括:建立跟驰系统的马尔科夫模型;根据强化学习中Actor

An economic adaptive cruise control method and system for electric vehicles based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的电动汽车经济性自适应巡航控制方法及系统


[0001]本专利技术涉及电动汽车
,涉及一种基于强化学习的电动汽车经济性自适应巡航控制方法及系统。

技术介绍

[0002]自适应巡航控制系统是高级驾驶辅助系统的组成之一,是推动自动驾驶发展技术的重要环节。自适应巡航控制系统能够通过车载雷达、车车通信技术,捕获当前车辆的速度和与前方车辆的信息,并根据当前的道路环境信息,实时自适应的改变车辆的加速度,从而实现安全平稳的跟随前车。同时,电动汽车由于其环境友好,得到了快速发展,将成为未来汽车主流发展趋势。但是,一方面,人类对汽车的要求不再局限于安全性和快速性,舒适性和智能化是人类追求的更高要求,在驾驶时能够实时监测跟驰环境状态,并给予警示和动作,减轻驾驶员负担;另一方面,电动汽车锂离子电池由于不断循环充放电,电池寿命得到不可逆的损失,严重影响了电动汽车的续航能力。

技术实现思路

[0003]针对上述技术问题,本专利技术提供一种基于强化学习的经济性自适应巡航控制方法及系统。本专利技术能够实现安全、舒适、平稳的跟随前车,没有碰撞行为,自适应能力较好。
[0004]本专利技术解决上述技术问题的技术方案是:一种基于强化学习的电动汽车经济性自适应巡航控制方法,包括以下步骤:
[0005]步骤S1,对数据集NGSIM进行数据处理,提取跟车行程片段,对数据集中的主车速度、加速度、前车速度、相对距离归一化处理;
[0006]步骤S2,建立电动汽车纵向动力学模型和锂离子电池功率模型,计算行车过程中动力学参数和荷电状态的变化量;
[0007]步骤S3,构建车辆自适应巡航过程为马尔科夫决策过程,定义状态、动作,构建安全、能耗和舒适度结合的奖励函数;
[0008]步骤S4,构建强化学习DDPG算法环境配置,采用70%NGSIM数据集和电池荷电状态,训练自适应巡航控制DDPG控制器;采用30%数据进行测试;
[0009]步骤S5,将训练好的DDPG控制器用于车辆自适应巡航系统仿真,得到理想加速度;定期对DDPG神经网络参数训练更新;
[0010]步骤S6,构建PID自适应巡航控制系统执行器,通过逆动力学模型,得到理想加速度的对应驱动/制动力矩。
[0011]一种基于强化学习的电动汽车经济性自适应巡航控制系统,包括:
[0012]信息感知模块:用于实时采集自适应巡航系统中主车和前车的速度、加速度、相对车距和锂离子电池荷电状态信息,并传输到强化学习训练模块和自适应巡航控制模块;
[0013]强化学习训练模块:用于构建自适应巡航控制问题的马尔科夫过程问题,搭建强
化DDPG算法的环境配置,根据数据信息训练DDPG两个神经网络参数,根据历史数据不断试错学习得到最优的动作,实现安全、经济、舒适地车辆驾驶;
[0014]自适应巡航控制模块:用于将训练好的强化学习DDPG神经网络作为自适应巡航控制器,输出控制量即主车加速度到驱动/制动执行模块;
[0015]驱动/制动执行模块:用于根据自适应巡航控制模块层输出的最优加速度,通过逆动力学模型,利用PID控制算法得到对应的理想驱动/制动力矩。
[0016]本专利技术的技术效果在于:本专利技术通过建立跟驰系统的马尔科夫模型,并根据强化学习中Actor

Critic算法,设计自适应巡航控制器;根据自适应巡航控制器的速度控制信号,根据逆动力学模型转化为加速/减速踏板卡开度,控制车辆安全跟随前车。本专利技术能够实现安全、舒适、平稳的跟随前车,避免碰撞行为发生,自适应能力较好。与只考虑驾驶安全的控制策略相比,在相同驾驶周期内,电池荷电状态有所提高。
附图说明
[0017]图1是本专利技术的结构示意图;
[0018]图2是本专利技术的流程图。
具体实施方式
[0019]下面将结合附图对本专利技术做进一步的说明。
[0020]如图1所示,图1是本专利技术的一种基于强化学习的电动汽车经济性自适应巡航系统的模块结构示意图,其包括:
[0021]信息感知模块100:用于实时采集自适应巡航系统中主车和前车的速度、加速度、相对车距和锂离子电池荷电状态信息,并传输到强化学习训练模块和自适应巡航控制模块;
[0022]强化学习训练模块200:用于构建自适应巡航控制问题的马尔科夫过程问题,搭建强化DDPG算法的环境配置,根据数据信息训练DDPG两个神经网络参数,根据历史数据不断试错学习得到最优的动作,实现安全、经济、舒适地车辆驾驶;
[0023]自适应巡航控制模块300:用于将训练好的强化学习DDPG神经网络作为自适应巡航控制器,输入主车和前车状态信息,输出控制量即主车加速度;
[0024]驱动/制动执行模块400:用于根据上自适应巡航控制模块输出的最优加速度,通过逆动力学模型,利用PID控制算法得到对应的理想驱动/制动力矩。
[0025]如图2所示,图2给出了基于强化学习的电动汽车经济性自适应巡航控制方法的流程图。包括以下步骤:
[0026]步骤1、对数据集NGSIM进行数据处理,提取跟车行程片段,对数据集中的主车速度、加速度、前车速度、相对距离归一化处理;
[0027]其中,要求只考虑车辆纵向驾驶,前车与主车处于同一个车道;对数据集进行一个跟车片段划分,剔除跟车时间小于15s的片段,共划分了1518个跟车行驶片段;速度和加速度单位统一为米每秒和米每二次方秒,相对车距单位统一为米。
[0028]步骤2、建立电动汽车纵向动力学模型和锂离子电池功率模型,计算行车过程中动力学参数和荷电状态的变化量;
[0029]针对两辆车的纵向驾驶,不考虑横向和其他行为,前车为自由车辆,主车为控制对象。控制对象车辆为前轮驱动的电动汽车,其主要组成为:锂离子电池,毫米波雷达,车车通信设备,交流感应电机,电力电子设备,单级变速器,制动系统等。车辆之间的信息交互性大大提高了,跟随车辆可以很容易地获取前车的状态信息,通过毫米波雷达获取距离信息,通过车车通信获取前车速度和位置信息。综合考虑跟踪能力、车辆舒适性和电池能耗,实现电动汽车跟驰安全性和经济性;
[0030]车辆间距策略关乎到跟驰的安全性,采用可变时间间距:
[0031]d
ref
=d0+hv
f
[0032]其中,d
ref
表示间距策略,d0表示静止时刻时的车辆间距,v
f
表示主车速度,h表示车头时距,车头时距定义为前车和主车到达相同位置所经过的时间,计算公式为:
[0033][0034]其中,p
l
、p
f
分别表示前车和主车的位置坐标。
[0035]在安全范围内保持较短的车头时距,可以缩小车辆对道路容量的占据,进而提高道路利用率,提高交通流通效率。
[0036]进一步地,车辆希望保持最佳的时距行使,但在自动驾驶中仍可能有碰撞的发生,采用最小安全距离策略作为距离策略的下限。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的电动汽车经济性自适应巡航控制方法,其特征在于,包括以下步骤:步骤S1,对数据集NGSIM进行数据处理,提取跟车行程片段,对数据集中的主车速度、加速度、前车速度、相对距离归一化处理;步骤S2,建立电动汽车纵向动力学模型和锂离子电池功率模型,计算行车过程中动力学参数和荷电状态的变化量;步骤S3,构建车辆自适应巡航过程为马尔科夫决策过程,定义状态、动作,构建安全、能耗和舒适度结合的奖励函数;步骤S4,构建强化学习DDPG算法环境配置,采用70%NGSIM数据集和电池荷电状态,训练自适应巡航控制DDPG控制器;采用30%数据进行测试;步骤S5,将训练好的DDPG控制器用于车辆自适应巡航系统仿真,得到理想加速度;定期对DDPG神经网络参数训练更新;步骤S6,构建PID自适应巡航控制系统执行器,通过逆动力学模型,得到理想加速度的对应驱动/制动力矩。2.根据权利要求1所述的基于强化学习的电动汽车经济性自适应巡航控制方法,其特征在于,步骤S2电动汽车纵向动力学模型中的最小安全距离为:上式中V
x
、V
y
分别表示本车、前车的速度,a
x
、a
y
分别表示本车、前车的最大减速度,t0表示驾驶员反应时间,d0表示静止时刻的距离。3.根据权利要求1所述的基于强化学习的电动汽车经济性自适应巡航控制方法,其特征在于,步骤S2中电动汽车锂离子电池荷电状态变化率为:上式中i
batt
表示电池电流,Q
batt
表示电池容量,V
oc
表示开路电压,R
int
表示电池内阻。4.根据权利要...

【专利技术属性】
技术研发人员:彭军贾席周峰李恒刘伟荣彭辉黄志武杨迎泽蒋富张晓勇荣介奇
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1