一种变时域预测能量管理方法及装置制造方法及图纸

技术编号：33835439 阅读：17 留言：0更新日期：2022-06-16 11:50

本发明专利技术涉及一种变时域预测能量管理方法，包括下述步骤：获取当前车辆的状态量及其对应的时域，获得下一时刻的最佳预测时域，所述最佳预测时域长度能够不固定；根据所述最佳预测时域，预测车速；基于最佳预测时域，采用动态规划算法获得车辆的最优控制序列，从而实现变时域的能量管理；在车辆执行控制序列对应的控制指令后，进入新的状态；所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。本发明专利技术的方法能够根据车辆状态和当前工况所在时域长度，预测下一工况的最佳预测时域，该最佳预测时域与当前状态所在时域长度不一定相同，从而提高预测能量管理的效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
一种变时域预测能量管理方法及装置

[0001]本公开涉及一种车辆预测能量管理方法，具体地，涉及一种变时域预测能量管理方法及装置。

技术介绍

[0002]在车辆控制中需要对车辆的能量进行预测管理，传统的预测能量管理研究中，预测时域的长度与预测的精度直接相关，因此不同的预测时域长度会直接影响优化效果和计算成本。通常预测时域长度的选择是根据在离线条件下测试不同预测时域长度下的能耗，选择能耗最小的预测时域。因此预测时域是固定值，是无法根据不同工况而变化的。传统方法的固定预测时域不能适应工况的变化，因此预测精度不高，优化效果和计算成本受限。变时域预测则可以很好的解决这个问题。
[0003]目前广泛使用的变时域预测方法有最佳ΔSOC逼近的变时域预测方法。虽然在一定程度能够根据当前车辆状态选择合适的预测时域，但受限于样本数量、工况类型、以及最佳ΔSOC预测精度等因素，预测精度不高，效果有限。变时域预测能量管理面临的最大挑战是缩短计算过程和提高适应性。

技术实现思路

[0004]基于此，本专利技术提出一种变时域能量预测管理方法，使车辆可以自主学习能量管理策略，以适应不同工况，不仅提高能量预测精度，降低成本，而且更加节能。
[0005]为了实现上述目的，本专利技术的技术方案为：
[0006]一方面，本专利技术提出了一种变时域预测能量管理方法，所述方法包括下述步骤：
[0007]S100、获取当前车辆的状态量及其对应的时域，获得下一时刻的最佳预测时域，所述最佳预测时域长度能够不固定；/>[0008]S200、根据所述最佳预测时域，预测车速；
[0009]S300、基于最佳预测时域，采用动态规划算法获得车辆的最优控制序列，从而实现变时域的能量管理；
[0010]S400、在车辆执行控制序列对应的控制指令后，进入新的状态；
[0011]所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。
[0012]优选地，在所述方法中，所述最佳预测时域通过DQN网络模型获得；所述DQN网络模型实现下述动作价值函数：
[0013]Q(t)＝R(sta
t
，act
t
)+βmax Q(sta
t
，act
t
；θ)
[0014]式中：
[0015]Q表示工况t下的动作价值函数值；R表示奖励函数；sta
t
表示车辆在工况t下的状态量；act
t
表示车辆在工况t下的时域；θ为DQN网络模型的权值参数，β表示最大动作价值所占的权重。
[0016]优选地，在所述方法中，所述车速采用双向长短期记忆模型(Bi
‑
directional Long Short
‑
Term Memory，BiLSTM)进行预测。
[0017]优选地，在所述方法中，所述DQN网络模型通过下述步骤进行训练：
[0018]S101、获取车辆的当前工况状态量及其对应时域，选择具有最大动作价值的时域；
[0019]S102、根据选择的时域，进行车速预测，在模型预测框架下依据奖励函数计算奖励值和下一工况状态量；
[0020]S103、在经验池中存储当前时刻信息组，所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量；
[0021]S104、在经验池中随机取出n个信息组，n为大于1的自然数；
[0022]S105、对每一个信息组，计算实际动作价值，根据实际动作价值和最大动作价值的差的平方，采用梯度下降算法更新DQN网络模型参数；
[0023]S106、将下一工况作为当前工况，返回S101。
[0024]优选地，在所述方法中，所述奖励函数如下：
[0025][0026]式中：
[0027]E
fc
为燃料电池系统的能耗；E
elec
为动力电池的能耗，ΔP
fc
为燃料电池系统的输出功率变化率，γ、λ、δ分别为权重系数。
[0028]另一方面，本专利技术提出一种变时域预测能量管理装置，所述装置包括下述智能体模块和环境模块；
[0029]所述智能体模块获取当前车辆的状态量及其对应的时域，获得下一时刻的最佳预测时域，所述最佳预测时域长度能够不固定；
[0030]所述环境模块接收智能体模块的最佳预测时域，先根据所述最佳预测时域，预测车速；然后基于最佳预测时域，采用动态规划算法获得车辆的最优控制序列，从而实现变时域的能量管理；最后在车辆执行控制序列对应的控制指令后，进入新的状态；
[0031]所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。
[0032]优选地，在所述装置中，所述最佳预测时域通过DQN网络模型获得；所述DQN网络模型实现下述动作价值函数：
[0033]Q(t)＝R(sta
t
，act
t
)+βmax Q(sta
t
，act
t
；θ)
[0034]式中：
[0035]Q表示工况t下的动作价值函数值；R表示奖励函数；sta
t
表示车辆在工况t下的状态量；act
t
表示车辆在工况t下的时域；θ为DQN网络模型的权值参数，β表示最大动作价值所占的权重。
[0036]优选地，在所述装置中，所述车速采用双向长短期记忆模型(Bi
‑
directional Long Short
‑
Term Memory，BiLSTM)进行预测。
[0037]优选地，在所述装置中，所述DQN网络模型通过下述步骤进行训练：
[0038]S101、获取车辆的当前工况状态量及其对应时域，选择具有最大动作价值的时域；
[0039]S102、根据选择的时域，进行车速预测，在模型预测框架下依据奖励函数计算奖励
值和下一工况状态量；
[0040]S103、在经验池中存储当前时刻信息组，所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量；
[0041]S104、在经验池中随机取出n个信息组，n为大于1的自然数；
[0042]S105、对每一个信息组，计算实际动作价值，根据实际动作价值和最大动作价值的差的平方，采用梯度下降算法更新DQN网络模型参数；
[0043]S106、将下一工况作为当前工况，返回S101。
[0044]优选地，在所述装置中，所述奖励函数如下：
[0045][0046]式中：
[0047]E
fc
为燃料电池系统的能耗；E
elec
为动力电池的能耗，ΔP
fc
为燃料电池系统的输出功率变化率，γ、λ、δ分别为权重系数。
[0048]与现有技术相比，本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种变时域预测能量管理方法，其特征在于，所述方法包括下述步骤：S100、获取当前车辆的状态量及其对应的时域，获得下一时刻的最佳预测时域，所述最佳预测时域长度能够不固定；S200、根据所述最佳预测时域，预测车速；S300、基于最佳预测时域，采用动态规划算法获得车辆的最优控制序列，从而实现变时域的能量管理；S400、在车辆执行控制序列对应的控制指令后，进入新的状态；所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。2.根据权利要求1所述的方法，其特征在于，所述最佳预测时域通过DQN网络模型获得；所述DQN网络模型实现下述动作价值函数：Q(t)＝R(sta
t
，act
t
)+βmax Q(sta
t
，act
t
；θ)式中：Q表示工况t下的动作价值函数值；R表示奖励函数；sta
t
表示车辆在工况t下的状态量；act
t
表示车辆在工况t下的时域；θ为DQN网络模型的权值参数，β表示最大动作价值所占的权重。3.根据权利要求1所述的方法，其特征在于，所述车速采用双向长短期记忆模型(Bi
‑
directional Long Short
‑
Term Memory，BiLSTM)进行预测。4.根据权利要求1所述的方法，其特征在于，所述DQN网络模型通过下述步骤进行训练：S101、获取车辆的当前工况状态量及其对应时域，选择具有最大动作价值的时域；S102、根据选择的时域，进行车速预测，在模型预测框架下依据奖励函数计算奖励值和下一工况状态量；S103、在经验池中存储当前时刻信息组，所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量；S104、在经验池中随机取出n个信息组，n为大于1的自然数；S105、对每一个信息组，计算实际动作价值，根据实际动作价值和最大动作价值的差的平方，采用梯度下降算法更新DQN网络模型参数；S106、将下一工况作为当前工况，返回S101。5.根据权利要求4所述的方法，其特征在于，所述奖励函数如下：式中：E
fc
为燃料电池系统的能耗；E
elec
为动力电池的能耗，ΔP
fc
为燃料电池系统的输出功率变化率，γ、λ、δ分别为权重系数。6.一种变时域预测能量管理装置，其特...

【专利技术属性】
技术研发人员：李梦林，刘浩然，闫梅，徐宏扬，李国通，金立生，
申请(专利权)人：燕山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人