电池组均衡控制模型的训练方法、装置及介质制造方法及图纸

技术编号:32121231 阅读:20 留言:0更新日期:2022-01-29 19:07
本发明专利技术涉及电池控制技术领域,具体提供一种电池组均衡控制模型的训练方法、装置及介质,旨在解决确保电池组正常工作的前提下,有效提升电池单体的寿命和安全性,并确保母线电压的稳定性的问题。为此目的,本发明专利技术能够根据电池组中每个电池单体的荷电状态偏差、开关器件的开关动作的次数以及母线电压波动偏差对控制电池单体接入状态的智能体进行有效训练,以使智能体在对电池组中的电池单体的接入状态进行控制时,尽量减少开关器件的开关动作的次数以及开关动作对于母线电压的影响,提升了开关器件的使用寿命以及母线电压的稳定性,也就提升了电池组的性能和安全性。就提升了电池组的性能和安全性。就提升了电池组的性能和安全性。

【技术实现步骤摘要】
电池组均衡控制模型的训练方法、装置及介质


[0001]本专利技术涉及电池控制
,具体提供一种电池组均衡控制模型的训练方法、装置及介质。

技术介绍

[0002]在使用锂电池进行供电的过程中,考虑到电池单体的电压较低且输出能力和容量有限,通常会采用大量电池串并联的方式组成大容量电池组来实现锂电池的供电。
[0003]其中,有大量的卫星电源使用通过串并联锂电池的方式组成的大容量电池组来实现供电。但是卫星电源目前主要存在以下问题:1)由于电池单体荷电状态不一致,荷电状态较小的电池可能会被过充或过放,这将加速衰老过程,严重影响电池单体的使用寿命和安全性。2)锂离子电池端电压随荷电状态变化较大,而为了提高供电效率,电源系统往往需要将电池组直挂母线上,这就需要对电池组输出电压进行稳定控制。3)锂电池组故障率较高,当电池单体耗尽或损坏后,会导致串联电池组停止工作。
[0004]相应地,本领域需要一种新的电池组均衡控制方案来解决上述问题。

技术实现思路

[0005]为了解决上述技术问题,即,在确保电池组正常工作的前提下,有效提升电池单体的寿命和安全性,并确保母线电压的稳定性的问题。
[0006]在第一方面,本专利技术提供一种电池组均衡控制模型的训练方法,所述电池组均衡控制模型包括智能体,所述电池组包括多个串联连接的电池单体支路,每个所述电池单体支路包括电池单体和两个开关器件,所述电池单体与一个开关器件串联形成串联支路,所述串联支路与另一个开关器件并联;所述智能体被配置为根据电池组中电池单体的荷电状态控制所述开关器件的开关动作,以控制所述电池单体的接入状态,实现电池单体接入所述电池组或将电池单体从所述电池组中切除,所述电池组与负载连接,形成为所述负载进行供电的供电回路;
[0007]所述训练方法包括:
[0008]在每个迭代训练中,获取所述电池组中所有电池单体的荷电状态,电池单体在当前迭代训练以及下一个迭代训练的接入状态,以及所述供电回路的母线电压;
[0009]根据所述电池单体的荷电状态,获取所述电池单体的荷电状态偏差;
[0010]根据所述电池单体在当前迭代训练以及下一个迭代训练的接入状态,获取所述电池组中的所述开关器件的开关动作的次数;
[0011]根据所述供电回路的母线电压,获取所述供电回路的母线电压波动偏差;
[0012]根据所述荷电状态偏差、所述开关动作的次数以及所述母线电压波动偏差,获取所述智能体输出的实际奖励值;
[0013]应用梯度下降法,根据所述实际奖励值计算所述智能体的参数的梯度值,根据所述梯度值反向传播更新所述智能体的参数,以实现对所述智能体的训练。
[0014]在上述训练方法的一个技术方案中,“根据所述荷电状态偏差、所述开关动作的次数以及所述母线电压波动偏差,获取所述智能体输出的实际奖励值”的步骤包括通过以下公式获取所述实际奖励值:
[0015]R=α1(ΔV

T1)+α2F+α3(ΔSOC

T2)
[0016]其中,R表示所述实际奖励值,ΔV表示所述母线电压波动偏差,F表示所述开关动作的次数,ΔSOC表示所述荷电状态偏差,T1表示预设的母线电压波动偏差的阈值,T2表示预设的荷电状态偏差的阈值,α1、α2、α3表示预设的奖励系数。
[0017]在上述训练方法的一个技术方案中,“根据所述电池单体的荷电状态,获取所述电池单体的荷电状态偏差”的步骤包括通过以下公式获取所述电池单体的荷电状态偏差:
[0018][0019]其中,SOC
BAT_max
表示所述电池组中荷电状态最大的电池单体的荷电状态,SOC
BAT_min
表示所述电池组中荷电状态最小的电池单体的荷电状态,SOC
end
表示所述电池单体充电或放电结束时的荷电状态,SOC

表示所述电池组中所有电池单体的荷电状态的平均值。
[0020]在上述训练方法的一个技术方案中,“根据所述电池单体在当前迭代训练以及下一个迭代训练的接入状态,获取所述电池组中的所述开关器件的开关动作的次数”的步骤包括通过以下公式获取所述电池组中的所述开关器件的开关动作的次数F:
[0021][0022]其中,N表示所述电池组中所述电池单体的数量,表示第t个迭代训练中电池单体i的接入状态,当电池单体i接入所述电池组时,的取值为1,当所述电池单体i从所述电池组中被切除时,的取值为0;表示第t+1个迭代训练内电池单体i的接入状态。
[0023]在上述训练方法的一个技术方案中,“根据所述供电回路的母线电压,获取所述供电回路的母线电压波动偏差”的步骤包括通过以下公式获取所述母线电压波动偏差ΔV:
[0024][0025]其中,V
B
表示所述供电回路的母线电压,V
R
表示所述母线电压的额定值。
[0026]在上述训练方法的一个技术方案中,“应用梯度下降法,根据所述实际奖励值计算所述智能体的参数的梯度值,根据所述梯度值反向传播更新所述智能体的参数,以实现对所述智能体的训练”的步骤包括通过以下公式更新所述智能体的参数:
[0027][0028]其中,θ
t
表示第t个迭代训练中所述智能体的参数,θ
t+1
表示第t+1个迭代训练中所述智能体的参数,S
t
表示第t个迭代训练中所述电池单体的状态的集合,所述电池单体的状态包括电池单体的接入状态和荷电状态,A
t
表示第t个迭代训练中所述开关器件的动作集
合,Q(S
t
,A
t
;θ
t
)表示第t个迭代训练中动作集合A
t
的价值函数,表示所述智能体输出的奖励的目标值,α表示预设的学习率,表示第t个迭代训练中根据所述价值函数计算得到的参数θ
t
的梯度值。
[0029]在上述训练方法的一个技术方案中,所述方法还包括通过以下公式获取所述智能体输出的奖励的目标值
[0030][0031]其中,R
t+1
表示第t+1个迭代训练所述智能体输出的实际奖励值,γ表示预设的折扣因子,表示第t个迭代训练中所述开关器件的动作集合中价值最大的开关器件的动作,S
t+1
表示第t+1个迭代训练中所述电池单体的状态的集合,Q(S
t+1
,a;θ
t
)表示第t+1个迭代训练中所述开关器件执行动作a时的价值函数,θ
t

表示第t个迭代训练中所述智能体包含的目标网络的参数。
[0032]在第二方面,提供一种控制装置,该控制装置包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述电池组均衡控制模型的训练方法的技术方案中任一项技术方案所述的电池组均衡控制模型的训练方法。
...

【技术保护点】

【技术特征摘要】
1.一种电池组均衡控制模型的训练方法,其特征在于,所述电池组均衡控制模型包括智能体,所述电池组包括多个串联连接的电池单体支路,每个所述电池单体支路包括电池单体和两个开关器件,所述电池单体与一个开关器件串联形成串联支路,所述串联支路与另一个开关器件并联;所述智能体被配置为根据电池组中电池单体的荷电状态控制所述开关器件的开关动作,以控制所述电池单体的接入状态,实现电池单体接入所述电池组或将电池单体从所述电池组中切除,所述电池组与负载连接,形成为所述负载进行供电的供电回路;所述训练方法包括:在每个迭代训练中,获取所述电池组中所有电池单体的荷电状态,电池单体在当前迭代训练以及下一个迭代训练的接入状态,以及所述供电回路的母线电压;根据所述电池单体的荷电状态,获取所述电池单体的荷电状态偏差;根据所述电池单体在当前迭代训练以及下一个迭代训练的接入状态,获取所述电池组中的所述开关器件的开关动作的次数;根据所述供电回路的母线电压,获取所述供电回路的母线电压波动偏差;根据所述荷电状态偏差、所述开关动作的次数以及所述母线电压波动偏差,获取所述智能体输出的实际奖励值;应用梯度下降法,根据所述实际奖励值计算所述智能体的参数的梯度值,根据所述梯度值反向传播更新所述智能体的参数,以实现对所述智能体的训练。2.根据权利要求1所述的训练方法,其特征在于,“根据所述荷电状态偏差、所述开关动作的次数以及所述母线电压波动偏差,获取所述智能体输出的实际奖励值”的步骤包括通过以下公式获取所述实际奖励值:R=α1(ΔV

T1)+α2F+α3(ΔSOC

T2)其中,R表示所述实际奖励值,ΔV表示所述母线电压波动偏差,F表示所述开关动作的次数,ΔSOC表示所述荷电状态偏差,T1表示预设的母线电压波动偏差的阈值,T2表示预设的荷电状态偏差的阈值,α1、α2、α3表示预设的奖励系数。3.根据权利要求2所述的训练方法,其特征在于,“根据所述电池单体的荷电状态,获取所述电池单体的荷电状态偏差”的步骤包括通过以下公式获取所述电池单体的荷电状态偏差:其中,SOC
BAT_max
表示所述电池组中荷电状态最大的电池单体的荷电状态,SOC
BAT_min
表示所述电池组中荷电状态最小的电池单体的荷电状态,SOC
end
表示所述电池单体充电或放电结束时的荷电状态,SOC

表示所述电池组中所有电池单体的荷电状态的平均值。4.根据权利要求3所述的训练方法,其特征在于,“根据所述电池单体在当前迭代训练以及下一个迭代训练的接入状态,获取所述电池组中的所述开关器件的开关动作的次数”的步骤包括通过以下公式获取所述电池组中的所述开关器件的开关动作的次数F:
其中,N表示所述电池组中所述...

【专利技术属性】
技术研发人员:叶泽雨尹靖元师长立韦统振罗彦韩立博彭祥华张桐硕
申请(专利权)人:中国科学院电工研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1