电池包热管理模型的训练方法、装置和计算机设备制造方法及图纸

技术编号:37875740 阅读:9 留言:0更新日期:2023-06-15 21:04
本申请提供了电池包热管理模型的训练方法、装置和计算机设备,方法包括:获取电池包的样本数据,样本数据至少包括电池包的动作样本数据和状态样本数据;根据样本数据,建立初始热管理模型的奖励函数,初始热管理模型为强化学习模型;基于奖励函数,对所述初始热管理模型进行训练。通过获取电池包的样本数据,基于电池包的样本数据建立初始热管理模型的奖励函数,再基于奖励函数对初始热管理模型进行训练,得到的电池包热管理模型,解决了相关技术中对电池包的温度进行管理的技术方案的环境适应性较差,且无法自适应地调节电池包能耗的技术问题,提高了对电池包的温度进行管理时的环境适应性,可以自适应调节电池包能耗。可以自适应调节电池包能耗。可以自适应调节电池包能耗。

【技术实现步骤摘要】
电池包热管理模型的训练方法、装置和计算机设备


[0001]本申请涉及电池
,特别是涉及一种电池包热管理模型的训练方法、装置和计算机设备。

技术介绍

[0002]随着电动汽车的不断发展,电池技术的应用价值变得越来越高。电池包作为电动汽车的唯一能量来源,需要在合适的温度范围内进行工作以维持电池包的正常健康状态,过高或者过低的温度都会对电池包的电芯造成损害。
[0003]在相关技术中,为了保证电池可以在合适的温度范围内工作,一般需要启动电池热管理系统对电池包进行加热或者冷却,以对电池包的温度进行调节。但是,热管理系统本身会消耗电池包的能量,并且热管理系统的运行依赖于预先制定的逻辑规则。在实际应用中由于使用环境和车辆工况的多样性,按照既定的逻辑规则运行热管理系统虽然可以维持电池包的温度正常,但是不能适用于各类场景,也不能保证在各类使用环境中将电池包的能耗降至最低。因此,相关技术中对电池包的温度进行管理的技术方案的环境适应性较差,且无法自适应地调节电池包能耗。
[0004]针对相关技术中存在的对电池包的温度进行管理的技术方案的环境适应性较差,且无法自适应地调节电池包能耗的技术问题,目前还没有提出有效地解决方案。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种电池包热管理模型的训练方法、装置和计算机设备,以解决相关技术中存在的对电池包的温度进行管理的技术方案的环境适应性较差,且无法自适应地调节电池包能耗地技术问题。
[0006]第一方面,本申请提供了一种电池包热管理模型的训练方法,包括:
[0007]获取电池包的样本数据,所述样本数据至少包括所述电池包的动作样本数据和状态样本数据;
[0008]根据所述样本数据,建立初始热管理模型的奖励函数,所述初始热管理模型为强化学习模型;
[0009]基于所述奖励函数,对所述初始热管理模型进行训练。
[0010]在其中一个实施例中,所述奖励函数至少包括温度项、水泵能耗项以及温度调节能耗项,其中,所述温度项基于电池包的最高采样温度、最低采样温度、温度上限阈值以及温度下限阈值确定,所述水泵能耗项基于水泵转速确定,所述温度调节能耗项基于进水口的实际进水温度以及预设进水温度确定。
[0011]在其中一个实施例中,所述样本数据采集于多个时间点,所述基于所述奖励函数,对所述初始热管理模型进行训练包括:
[0012]基于所述奖励函数以及每个时间点的所述样本数据,计算每个时间点的奖励值;
[0013]基于每个时间点的所述奖励值,计算每个时间点的未来奖励总值,所述未来奖励
总值为当前时间点之后的所有时间点的奖励值的总和;
[0014]将每个时间点的所述状态样本数据、所述动作样本数据以及所述未来奖励总值输入至所述初始热管理模型,并对所述初始热管理模型进行训练。
[0015]在其中一个实施例中,所述初始热管理模型的前向通道的迭代过程包括:
[0016]将当前时间点的当前推演状态值、当前推演未来奖励总值和所有历史时间点的历史推演状态值、历史推演未来奖励总值以及历史推演动作值作为输入,对当前时间点的当前推演动作值进行预测;
[0017]根据每个时间点的推演状态值、推演动作值以及推演未来奖励总值,建立推演序列。
[0018]在其中一个实施例中,所述对所述初始热管理模型进行训练包括:
[0019]基于所述推演动作值以及所述动作样本数据,建立损失函数,并基于所述损失函数调节所述初始热管理模型的参数。
[0020]在其中一个实施例中,所述对所述初始热管理模型进行训练之后还包括:
[0021]将电池包的状态数据序列输入至经训练的目标热管理模型;
[0022]基于所述目标热管理模型对所述状态数据序列进行推演,得到动作数据序列。
[0023]在其中一个实施例中,所述获取电池包的样本数据之后还包括:
[0024]对所述样本数据进行数据清洗,数据清洗的对象至少包括所述样本数据中的缺失值以及异常值。
[0025]第二方面,本申请还提供了一种电池包热管理模型的训练装置,包括:
[0026]获取模块,用于获取电池包的样本数据,所述样本数据至少包括所述电池包的动作样本数据和状态样本数据;
[0027]建立模块,用于根据所述样本数据,建立初始热管理模型的奖励函数,所述初始热管理模型为强化学习模型;
[0028]训练模块,用于基于所述奖励函数,对所述初始热管理模型进行训练。
[0029]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0030]获取电池包的样本数据,所述样本数据至少包括所述电池包的动作样本数据和状态样本数据;
[0031]根据所述样本数据,建立初始热管理模型的奖励函数,所述初始热管理模型为强化学习模型;
[0032]基于所述奖励函数,对所述初始热管理模型进行训练。
[0033]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0034]获取电池包的样本数据,所述样本数据至少包括所述电池包的动作样本数据和状态样本数据;
[0035]根据所述样本数据,建立初始热管理模型的奖励函数,所述初始热管理模型为强化学习模型;
[0036]基于所述奖励函数,对所述初始热管理模型进行训练。
[0037]本申请提供了电池包热管理模型的训练方法、装置和计算机设备,所述方法包括:
获取电池包的样本数据,所述样本数据至少包括所述电池包的动作样本数据和状态样本数据;根据所述样本数据,建立初始热管理模型的奖励函数,所述初始热管理模型为强化学习模型;基于所述奖励函数,对所述初始热管理模型进行训练。通过获取电池包的样本数据,并基于电池包的样本数据建立初始热管理模型的奖励函数,再基于奖励函数对初始热管理模型进行训练,得到的电池包热管理模型,解决了相关技术中对电池包的温度进行管理的技术方案的环境适应性较差,且无法自适应地调节电池包能耗的技术问题,提高了对电池包的温度进行管理时的环境适应性,且可以自适应地调节电池包能耗。
附图说明
[0038]图1是本申请一实施例中电池包热管理模型的训练方法的应用环境图;
[0039]图2是本申请一实施例中电池包热管理模型的训练方法的流程示意图;
[0040]图3是本申请一实施例的电池包热管理模型的训练方法中的强化学习模型示意图;
[0041]图4是本申请另一实施例的电池包热管理模型的训练方法的流程示意图;
[0042]图5是本申请一实施例中电池包热管理模型的训练装置的结构框图;
[0043]图6是本申请一实施例中计算机设备的内部结构图。
具体实施方式
[0044]为了使本申请的目的、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电池包热管理模型的训练方法,其特征在于,包括:获取电池包的样本数据,所述样本数据至少包括所述电池包的动作样本数据和状态样本数据;根据所述样本数据,建立初始热管理模型的奖励函数,所述初始热管理模型为强化学习模型;基于所述奖励函数,对所述初始热管理模型进行训练。2.根据权利要求1所述的电池包热管理模型的训练方法,其特征在于,所述奖励函数至少包括温度项、水泵能耗项以及温度调节能耗项,其中,所述温度项基于电池包的最高采样温度、最低采样温度、温度上限阈值以及温度下限阈值确定,所述水泵能耗项基于水泵转速确定,所述温度调节能耗项基于进水口的实际进水温度以及预设进水温度确定。3.根据权利要求1所述的电池包热管理模型的训练方法,其特征在于,所述样本数据采集于多个时间点,所述基于所述奖励函数,对所述初始热管理模型进行训练包括:基于所述奖励函数以及每个时间点的所述样本数据,计算每个时间点的奖励值;基于每个时间点的所述奖励值,计算每个时间点的未来奖励总值,所述未来奖励总值为当前时间点之后的所有时间点的奖励值的总和;将每个时间点的所述状态样本数据、所述动作样本数据以及所述未来奖励总值输入至所述初始热管理模型,并对所述初始热管理模型进行训练。4.根据权利要求3所述的电池包热管理模型的训练方法,其特征在于,所述初始热管理模型的前向通道的迭代过程包括:将当前时间点的当前推演状态值、当前推演未来奖励总值和所有历史时间点的历史推演状态值、历史推演未来奖励总值以及历史推演动作值作为输入,对当前时间点的当前推演动作值进行预测;根据...

【专利技术属性】
技术研发人员:戴认之李志飞高科杰
申请(专利权)人:浙江零跑科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1