一种混动传动系统在通勤路段下的学习型能量管理方法技术方案

技术编号:37479590 阅读:11 留言:0更新日期:2023-05-07 09:20
本发明专利技术公开了一种混动传动系统在通勤路段下的学习型能量管理方法,包括:确定通勤路段,记录并存储通勤路段特征数据;基于DQN强化学习训练并生成工作模式选择模型;开始通勤路段的驾驶行程,基于实时与历史动态交通信息进行拥堵程度相似度评估;通过迁移学习训练优化工作模式选择模型;采用对抗性强化学习进行短时域工作模式预测,确定目标工作模式;基于驾驶人扭矩需求和扭矩分配规则确定目标工作模式对应的动力源转矩和转速;驾驶行程结束,记录并存储此次通勤路段特征数据,加入DQN强化学习训练数据集。该方法能够有效应用于通勤路段下的能量管理,随着通勤路段驾驶工况特征数据的存储和记录,对应训练并生成的工作模式选择模型会越来越优。择模型会越来越优。择模型会越来越优。

【技术实现步骤摘要】
一种混动传动系统在通勤路段下的学习型能量管理方法


[0001]本专利技术涉及混动传动系统能量管理
,特别是涉及一种混动传动系统在通勤路段下的学习型能量管理方法。

技术介绍

[0002]混合动力汽车将发动机和电机作为动力源,通过合理的燃油和电能利用可达到节能减排的目标。混动汽车的能耗表现与驾驶工况具有很强的相关性,发动机和电机对应的具体工作状态表现取决于能量管理策略的制定。目前,混动汽车普遍采用基于规则的能量管理策略,该类能量管理策略工况适应性较差,能量利用有很大的优化空间,而对于全局优化能量管理策略,虽然其能够达到全域工况下的能量利用最优,但需要预知全域工况,且很难在线实时应用。然而,智能学习算法的发展能够很好地解决上述问题,一方面,学习型能量管理策略能够满足混动传动系统的实时应用要求,另一方面,学习型能量管理策略能够对驾驶工况特征数据进行不断迭代学习,尤其是能够快速迁移学习相对固定的驾驶工况特征数据,例如通勤路段下的驾驶工况数据。因此,在具有高度相似性驾驶工况特征数据的通勤路段下,采用学习型能量管理策略能够使混动汽车的能量利用达到近似全局最优,显著提升混动汽车的节能减排效果。
[0003]学习型能量管理策略应用于通勤路段实现能量利用优化,一方面,尽可能使发动机和电机的工作点处于高效区内;另一方面,在高度相似的驾驶工况下,发动机和电机之间相互配合高效工作。然而,现有学习型能量管理策略直接将动力传动系统的转速和转矩作为控制变量,导致工作模式的频繁切换和车速的频繁波动脱离了实际表现,同时,动力源转速和转矩突变会对驾驶安全产生直接影响。此外,通勤路段下的驾驶工况虽然具有高度相似性,但并不是完全保持一致,其仍存在随机性、不确定性的驾驶事件发生,现有学习型能量管理策略鲜有将实时动态驾驶工况的变化考虑在内,通过迁移学习能够快速适应实时动态驾驶工况的变化并适时调整动力传动系统的工作状态。因此,上述问题需在学习型能量管理策略的制定过程中重点考虑,从而满足通勤路段下混动能量管理的高效利用。

技术实现思路

[0004]本专利技术提出一种混动传动系统在通勤路段下的学习型能量管理方法。一方面,通过不断学习通勤路段下的驾驶工况特征数据与工作模式的映射关系,从而实时在线调整混动传动系统的工作模式,有效解决目前将控制输出直接作用于动力源的转速和转矩上,从而保证行车安全。另一方面,本专利技术所提学习型能量管理方法能够有效应对通勤路段下随机性、不确定性驾驶事件的发生,通过迁移学习增强对通勤路段驾驶工况的适应性,不仅实现学习型能量管理策略的实时应用,而且能够使混动汽车的能量利用过程逐步迭代优化。综上,本专利技术所提的学习型能量管理策略有效考虑了驾驶安全,考虑了通勤路段下的驾驶工况特征,考虑了动力传动系统物理约束条件,避免混动传动系统工作模式频繁切换。
[0005]有鉴于此,本专利技术提出了一种混动传动系统在通勤路段下的学习型能量管理方
法,能够有效应用于通勤路段下混合动力汽车能量管理。
[0006]本专利技术提供的一种混动传动系统在通勤路段下的学习型能量管理方法,包括如下步骤:步骤1,根据实际通勤情况确定通勤路段,记录并存储通勤路段特征数据,包括车辆状态表现、混动传动系统工作表现和驾驶场景特征数据;步骤2,将通勤路段特征数据作为训练数据,基于DQN强化学习训练并生成通勤路段工作模式选择模型;步骤3,开始通勤路段的驾驶行程,在线实时获取通勤路段动态交通信息,基于实时动态交通信息与历史动态交通信息进行拥堵程度相似度评估;当评估结果为不相似时,则进入步骤4;当评估结果为相似时,则基于通勤路段工作模式选择模型生成瞬时工作模式,进入步骤5;步骤4,通过迁移学习训练优化通勤路段工作模式选择模型,基于优化后的通勤路段工作模式选择模型生成瞬时工作模式;步骤5,采用对抗性强化学习进行短时域工作模式预测,当短时域内所预测的工作模式为频繁切换时,将瞬时工作模式作为目标工作模式;当短时域内所预测的工作模式为稳定值时,将预测生成的稳定工作模式作为目标工作模式;步骤6,基于不同动力源的工作状态设定不同工作模式对应的扭矩分配规则,基于驾驶人扭矩需求和扭矩分配规则确定目标工作模式对应的动力源转矩和转速;步骤7,驾驶行程结束,记录并存储此次驾驶行程的通勤路段特征数据,将其加入步骤2的DQN强化学习训练数据集。
[0007]进一步,所述步骤1中车辆状态表现、混动传动系统工作表现和驾驶场景特征数据具体为:车辆状态表现包括车辆速度、加速度、电池SoC;混动传动系统工作表现包括混动传动系统工作模式、不同动力源转速和转矩、燃油消耗;驾驶场景特征数据包括静态道路信息和动态交通信息,静态道路信息包含道路类型、道路限速、有交通信号灯的交叉路口、无交通信号灯的交叉路口,动态交通信息包含不同道路片段对应的交通拥堵程度、拥堵持续时长以及拥堵距离、拥堵状态起终点。
[0008]进一步,所述步骤2具体为:DQN强化学习的价值函数为其中,为状态量,为动作量,为状态价值;通勤路段的每一时刻的速度、加速度、电池SoC、动态交通信息作为状态量输入,工作模式作为动作量输出,DQN强化学习过程中根据所设置的奖励函数Reward评估状态对应的状态价值,奖励函数为燃油消耗量,电池SoC状态偏离惩罚以及工作模式选择惩罚,如下式所示:
其中,为燃油消耗因子,为不同时刻下的瞬时燃油消耗,为电池SoC消耗因子,为给定的电池SoC参考值,为不同时刻下的电量消耗,punish为工作模式选择惩罚,当需求扭矩为正时,选择驱动工作模式,当需求扭矩为负时,选择制动工作模式,当工作模式选择错误时设置惩罚值进行惩罚;根据贪婪系数进行随机探索实现动作选择,并将计算所得的经验值储存在记忆池中,当记忆池数据量达到预设值后,从记忆池中随机抽样进行DQN梯度下降更新DQN值函数神经网络参数值,并训练生成通勤路段工作模式选择模型;其中,DQN梯度下降更新公式为:式中,表示DQN梯度下降更新公式,为损失函数,表示服从分布以及服从分布的均值函数,为梯度下降对应的Q值,为Q值,为当前网络参数,为当前时刻状态量、动作量,为上一时刻网络参数,为上一时刻状态量、动作量,为奖励值,为奖励值的衰减;为奖励值的衰减;其中,为目标Q值,表示服从分布的均值函数,表示服从分布的均值函数。
[0009]进一步,所述步骤3,所述相似度评估的流程为:(1)将通勤路段的不同道路片段离散为等间隔的道路网格,道路网格根据实际道路类型进行划分;(2)根据在线实时获取的通勤路段动态交通信息,获取驾驶行程中的拥堵起终点,对该拥堵起终点的交通拥堵程度进行归一化,基于欧式距离相似性评估方法进行相似性判断:其中,为拥堵路段交通拥堵程度与历史交通拥堵程度的相似性,为拥堵路段的交通拥堵程度,为对应拥堵路段的历史交通拥堵程度,为第i个道路网格中的交通拥堵程度,为对应第i个道路网格中的历史交通拥堵程度;为道路网格的数量;当值小于相似性阈值时为相似拥堵程度,否则为不相似拥堵程度,其中0<相似性阈值<1。
[0010]进一步,所述步骤4,通过迁移学习训练优化通勤路段工作模式选择模型具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,包括以下步骤:步骤1,根据实际通勤情况确定通勤路段,记录并存储通勤路段特征数据,包括车辆状态表现、混动传动系统工作表现和驾驶场景特征数据;步骤2,将通勤路段特征数据作为训练数据,基于DQN强化学习训练并生成通勤路段工作模式选择模型;步骤3,开始通勤路段的驾驶行程,在线实时获取通勤路段动态交通信息,基于实时动态交通信息与历史动态交通信息进行拥堵程度相似度评估;当评估结果为不相似时,则进入步骤4;当评估结果为相似时,则基于通勤路段工作模式选择模型生成瞬时工作模式,进入步骤5;步骤4,通过迁移学习训练优化通勤路段工作模式选择模型,基于优化后的通勤路段工作模式选择模型生成瞬时工作模式;步骤5,采用对抗性强化学习进行短时域工作模式预测,当短时域内所预测的工作模式为频繁切换时,将瞬时工作模式作为目标工作模式;当短时域内所预测的工作模式为稳定值时,将预测生成的稳定工作模式作为目标工作模式;步骤6,基于不同动力源的工作状态设定不同工作模式对应的扭矩分配规则,基于驾驶人扭矩需求和扭矩分配规则确定目标工作模式对应的动力源转矩和转速;步骤7,驾驶行程结束,记录并存储此次驾驶行程的通勤路段特征数据,将其加入步骤2的DQN强化学习训练数据集。2.根据权利要求1所述的混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,所述步骤1中车辆状态表现、混动传动系统工作表现和驾驶场景特征数据具体为:车辆状态表现包括车辆速度、加速度、电池SoC;混动传动系统工作表现包括混动传动系统工作模式、不同动力源转速和转矩、燃油消耗;驾驶场景特征数据包括静态道路信息和动态交通信息,静态道路信息包含道路类型、道路限速、有交通信号灯的交叉路口、无交通信号灯的交叉路口,动态交通信息包含不同道路片段对应的交通拥堵程度、拥堵持续时长以及拥堵距离、拥堵状态起终点。3.根据权利要求2所述的混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,所述步骤2具体为:DQN强化学习的价值函数为其中,为状态量,为动作量,为状态价值;通勤路段的每一时刻的速度、加速度、电池SoC、动态交通信息作为状态量输入,工作模式作为动作量输出,DQN强化学习过程中根据所设置的奖励函数Reward评估状态对应的状态价值,奖励函数为燃油消耗量,电池SoC状态偏离惩罚以及工作模式选择惩罚,如下式所示:
其中,为燃油消耗因子,为不同时刻下的瞬时燃油消耗,为电池SoC消耗因子,为给定的电池SoC参考值,为不同时刻下的电量消耗,punish为工作模式选择惩罚,当需求扭矩为正时,选择驱动工作模式,当需求扭矩为负时,选择制动工作模式,当工作模式选择错误时设置惩罚值进行惩罚;根据贪婪系数进行随机探索实现动作选择,并将计算所得的经验值储存在记忆池中,当记忆池数据量达到预设值后,从记忆池中随机抽样进行DQN梯度下降更新DQN值函数神经网络参数值,并训练生成通勤路段工作模式选择模型;...

【专利技术属性】
技术研发人员:董鹏赵俊玮张源博刘学武徐向阳王书翰刘艳芳郭伟
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1