当前位置: 首页 > 专利查询>重庆大学专利>正文

一种跟车环境下基于深度强化学习的HEV能量管理方法技术

技术编号:26157952 阅读:46 留言:0更新日期:2020-10-31 12:23
本发明专利技术涉及一种跟车环境下基于深度强化学习的HEV能量管理方法,属于智能混合动力汽车控制领域。该方法包括:基于跟随车的实时车速等信息,确定两车之间的最短安全距离以及最长跟车距离;建立串联式DDPG算法模型,学习跟车速度规划策略以及能量管理控制策略;定义DDPG算法中的变量空间;当每次迭代过程所获得的总奖励值趋于稳定收敛状态并且学习效果较为理想后,结束离线训练过程并且保存持久化模型;制定评价指标,并且利用动态规划算法作为能量管理策略的对比标准。本发明专利技术针对具有自动跟车功能的智能混合动力汽车,利用深度强化学习算法,完成跟车环境的速度规划以及传动系统的能量管理,实现整车的综合控制。

An energy management method for HEV Based on deep reinforcement learning in car following environment

【技术实现步骤摘要】
一种跟车环境下基于深度强化学习的HEV能量管理方法
本专利技术属于智能混合动力汽车控制领域,涉及一种跟车环境下基于深度强化学习的HEV能量管理方法。
技术介绍
汽车产业的发展方向大致可分为新能源化与智能化。其中,智能汽车已经成为当前的热门研究课题,通过智能汽车可以彻底解放人类的主动驾驶活动,让日常生活变得更加轻松自在。自动驾驶模式下的跟车行驶属于一项基本功能,通过组建车队的形式进行列队驾驶,将大幅度地减小除领航车以外其余车辆驾驶员的驾驶疲劳,并且采用间歇性地更换领航车的方式,在保证安全性的情况下能够让整个车队在最短时间内到达目的地。同时,有了领航车的存在后,后方跟随车辆的空气阻力系数将会大大较小,可有效减少跟随车的燃油消耗量。目前,自动跟车属于智能车的研究领域,而能量管理策略的研究主要面向的是混合动力汽车,前者是智能化方面,后者是新能源化方向。因此,亟需一种针对智能化与新能源化的交叉方向,在一辆具有智能控制的混合动力汽车内,同步实现无人驾驶与功率分配的最优控制方法。
技术实现思路
有鉴于此,本专利技术的目的在于提供一本文档来自技高网...

【技术保护点】
1.一种跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,该方法包括以下步骤:/nS1:建立环境模型:建立跟车环境模型以及混合动力汽车传动系统模型,并利用V2V技术采集领航车的行使信息;/nS2:确定跟车距离范围:计算两车之间的最短安全距离以及最长跟车距离;/nS3:构建算法模型:建立基于深度强化学习的串联式深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法模型,同时学习跟车速度规划策略以及能量管理控制策略;/nS4:确定算法变量空间:定义DDPG算法中的状态变量空间、动作变量空间以及奖励函数;/nS5:离线训练阶段:当每次迭代过程...

【技术特征摘要】
1.一种跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,该方法包括以下步骤:
S1:建立环境模型:建立跟车环境模型以及混合动力汽车传动系统模型,并利用V2V技术采集领航车的行使信息;
S2:确定跟车距离范围:计算两车之间的最短安全距离以及最长跟车距离;
S3:构建算法模型:建立基于深度强化学习的串联式深度确定性策略梯度(DeepDeterministicPolicyGradient,DDPG)算法模型,同时学习跟车速度规划策略以及能量管理控制策略;
S4:确定算法变量空间:定义DDPG算法中的状态变量空间、动作变量空间以及奖励函数;
S5:离线训练阶段:当每次迭代过程所获得的总奖励值趋于稳定收敛状态并且学习效果较为理想后,结束离线训练过程并且保存持久化模型;
S6:在线测试阶段:采用新的速度工况测试算法的训练效果,制定用来评判跟车效果的评价指标,并且利用动态规划算法作为能量管理策略的对比标准。


2.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,步骤S1中,建立跟车环境模型以及车辆传动系统模型,通过组建车队环境让后车在保持安全距离下紧跟领航车,具体包括:领航车利用V2V技术采集行驶信息,包括实时行驶速度、加速度以及转向角,其中加速度按照下式确定:



其中,v1st为t时刻的前车速度,a1st为t时刻的前车加速度,Δt为时间间隔。


3.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,步骤S2中,确定跟车距离范围,具体包括以下步骤:
S21:结合后车的实时车速以及当前的路面条件,计算车辆的制动距离,并且以制动距离作为最短安全距离,计算公式为:



其中,s为制动距离,τ'2为制动器空行程时间,τ”2为制动减速度线性增长时间,ua0为起始制动车速,abmax为制动减速度;
S22:将最长跟车距离定义为最短安全距离加常规乘用车的车身长度。


4.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,所述步骤S3具体包括:建立串联式DDPG算法模型,选择神经网络结构,前车根据输入的环境状态信息学习跟车速度规划策略,后车根据前车的速度规划策略学习混合动力汽车的能量管理控制策略。


5.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,步骤S4中,根据预期的学习目标定义相应的状态变量空间、动作变量空间以及奖励函数,具体包括:
(1)针对用于学习跟车速度规划的DDPG算法模型,状态变量包括领航车行驶速度、领航车行驶加速度、领航车转向角、后车速度和两车间隔距离;动作变量定义为后车加速度;奖励函数根据两车的实时距离定义为曲线函数形式;
(2)针对用于学习能量管理策略的DDPG算法模型,状态...

【专利技术属性】
技术研发人员:唐小林陈佳信杨凯邓忠伟胡晓松李佳承
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1