一种基于PPO算法及考虑充电电费的电池快速充电控制方法技术

技术编号:35911712 阅读:16 留言:0更新日期:2022-12-10 10:51
本发明专利技术公开了一种基于PPO算法及考虑充电电费的电池快速充电控制方法,构建锂离子电池电热耦合模型和充电电费优化模型,确定其关键状态变量,归一化后归入强化学习状态空间,定义动作空间和奖励函数;基于近端策略优化算法对构建的充电策略网络、策略评估网络进行训练;直至充电策略网络和策略评估网络收敛,导出充电策略网络作为电池快速充电策略;采集实时数据输入训练成熟的充电策略网络,决策出当前时刻的最优充电动作;每个充电周期结束后重新采集状态量并决策充电电流,直至充电完成。本发明专利技术能实现具有安全与健康主动意识的、低充电成本的快速充电,将多约束、多目标最优化求解导致的复杂计算迁移到离线训练环节,显著降低了在线充电决策的计算复杂度。低了在线充电决策的计算复杂度。低了在线充电决策的计算复杂度。

【技术实现步骤摘要】
一种基于PPO算法及考虑充电电费的电池快速充电控制方法


[0001]本专利技术属于电池快速充电领域,具体涉及一种基于PPO算法及考虑充电电费的电池快速充电控制方法。

技术介绍

[0002]为了缓解日益严重的能源短缺和环境污染问题,传统燃油汽车将逐渐退出历史舞台。而电动汽车由于自身零排放和高能量效率的优点,成为燃油汽车的理想替代品,成为了研究热点。锂电池作为电动汽车的动力装置,由于自身电化学特性的限制,存在着充电时间较长的问题,容易引发用户里程焦虑,严重制约了电动汽车产业的发展。而过大电流的充电控制会带来安全隐患,严重时会造成起火、爆炸等事故。因此,迫切需要进行安全高效的充电控制策略研究。
[0003]传统充电策略中,目前应用最广的充电策略为恒流

恒压(CCCV)充电法、多级恒流方法等,这类充电方法充电参数的选取取决于设计者的经验知识,会造成充电模式与电池不匹配,且随着用户需求的不断增加,电池充电过程中需要考虑到优化目标越来越多,传统策略无法满足日益增长的用户需求。现有技术中有建立电热模型和老化模型,基于生物地理学的多目标优化算法,从电池健康状况、充电时间和能量转换效率三个方面对充电过程进行优化,在目标间取得了合理的权衡。但这类方法需要对高维、强耦合、非线性问题进行多约束、多目标优化求解,计算复杂度高,在线应用具有挑战性。专利公开号为CN112018465A的中国专利基于DDPG算法,对用于决策电池充电电流的神经网络进行训练,使电池满足充电物理约束的同时,完成充电任务,该方法通过提前训练神经网络,降低了在线应用时的计算复杂度,但仅从电池本身的角度考虑,无法满足用户降低充电成本方面的需求。

技术实现思路

[0004]专利技术目的:本专利技术的目的在于克服现有技术的不足,提出一种基于PPO算法及考虑充电电费的电池快速充电控制方法,通过建立多目标优化问题,采用PPO算法进行求解,实现遵从电池电压和温度约束的快速充电;该方法将多约束、多目标最优化求解导致的复杂计算迁移到离线训练环节,保证算法的实时性。
[0005]技术方案:本专利技术提供了一种基于PPO算法及考虑充电电费的电池快速充电控制方法,具体包括以下步骤:
[0006](1)构建锂离子电池电热耦合模型和充电电费优化模型,并根据构建的两个模型建立离线训练场景,确定其关键状态变量;
[0007](2)将步骤(1)中确定的关键状态变量归一化后归入强化学习状态空间,定义动作空间和奖励函数;
[0008](3)基于近端策略优化算法对构建的充电策略网络、策略评估网络进行训练;所述充电策略网络根据获取到的状态变量产生充电动作,依据步骤(1)中锂离子电池电热耦合
模型更新电池状态,并将充电动作、电池状态、奖励值记录于经验池,通过经验池信息进行充电策略网络和策略评估网络的同步更新;
[0009](4)循环执行步骤(3),直至充电策略网络和策略评估网络收敛,导出充电策略网络作为电池快速充电策略;
[0010](5)实时采集电池当前电量、端电压、环境温度、电池表面温度、当前时刻电价,并进行归一化处理,输入步骤(4)中训练成熟的充电策略网络,决策出当前时刻的最优充电动作;
[0011](6)每个充电周期结束后重新采集状态量并决策充电电流,直至充电完成。
[0012]进一步地,步骤(1)所述关键状态变量包括电池电量SOC、电池电压V
B
、电池平均温度T
a
和电价p。
[0013]进一步地,步骤(1)所述锂离子电池电热耦合模型构建过程如下:
[0014]电压源V
OC
和电阻R0分别用于模拟电池的储能和充放电能量损失,RC网络(R1,C1)和(R2,C2)表征了电池的短期和长期瞬态响应;根据基尔霍夫电流和电压定律,电池的动态特性描述为:
[0015][0016]式中,SOC(k)、C
n
、I
B
(k)、V
B
(k)分别表示电池的SOC状态、标称容量、充电电流和电压;电池开路电压V
OC
(k)是SOC(k)的非线性函数:V
OC
(k)=g(SOC(k));
[0017]V1(k)和V2(k)分别表示电容C1和C2两端的电压;R0为恒定电阻;T
C
、T
S
表示电池核心温度和表面温度,根据能量守恒原理计算为:
[0018][0019][0020]式中,T
amb
为电池的环境温度;R
C
、R
u
分别表示热传导电阻和对流电阻;C
C
、C
S
分别表示电池的内部热容和表面热容;电池的温度定义为T
S
和T
C
的平均值:
[0021][0022]进一步地,步骤(1)所述充电电费优化模型构建过程如下:
[0023]最小化电池从任意初始电量SOC(0)到充至期望电量SOC
d
所花费的时间,充电速度对应的目标函数为:
[0024]min J1=NT
ꢀꢀ
(5)
[0025]式中,T表示采样周期,N是SOC(N)=SOC
d
所对应的采样步数;
[0026]充电成本受电池的充电电流和当前时刻的电价影响,充电成本优化的目标函数为:
[0027][0028]式中,p(k)是在充电采样周期k时电力的分时电价;J2为电池充电过程中总的电费支出;
[0029]充电安全约束为:
[0030]0≤I
B
(k)≤I
max
ꢀꢀ
(7)
[0031]式中,I
max
是电池的最大允许充电电流;防止电池的SOC、电压和温度超过其允许的限值:
[0032][0033]式中,SOC
max
、V
max
和T
max
分别代表电池SOC、电压和温度的上限。
[0034]进一步地,所述步骤(2)实现过程如下:
[0035]充电速度奖励函数设置为:
[0036]r
s
(k)=

k
·
|SOC(k)

SOC
d
|
ꢀꢀ
(9)
[0037]式中,k为当前所处充电步数,SOC(k)为电池在充电步数k时的SOC状态,SOC
d
为目标SOC,即充电完成时期望的SOC;
[0038]电费成本奖励函数为:
[0039]r
p
(k)=(p
max

p(k))
·
(SOC(k)

SOC(k

1))
ꢀꢀ
(10)
[0040]式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于PPO算法及考虑充电电费的电池快速充电控制方法,其特征在于,包括以下步骤:(1)构建锂离子电池电热耦合模型和充电电费优化模型,并根据构建的两个模型建立离线训练场景,确定其关键状态变量;(2)将步骤(1)中确定的关键状态变量归一化后归入强化学习状态空间,定义动作空间和奖励函数;(3)基于近端策略优化算法对构建的充电策略网络、策略评估网络进行训练;所述充电策略网络根据获取到的状态变量产生充电动作,依据步骤(1)中锂离子电池电热耦合模型更新电池状态,并将充电动作、电池状态、奖励值记录于经验池,通过经验池信息进行充电策略网络和策略评估网络的同步更新;(4)循环执行步骤(3),直至充电策略网络和策略评估网络收敛,导出充电策略网络作为电池快速充电策略;(5)实时采集电池当前电量、端电压、环境温度、电池表面温度、当前时刻电价,并进行归一化处理,输入步骤(4)中训练成熟的充电策略网络,决策出当前时刻的最优充电动作;(6)每个充电周期结束后重新采集状态量并决策充电电流,直至充电完成。2.根据权利要求1所述的一种基于PPO算法及考虑充电电费的电池快速充电控制方法,其特征在于,步骤(1)所述关键状态变量包括电池电量SOC、电池电压V
B
、电池平均温度T
a
和电价p。3.根据权利要求1所述的一种基于PPO算法及考虑充电电费的电池快速充电控制方法,其特征在于,步骤(1)所述锂离子电池电热耦合模型构建过程如下:电压源V
OC
和电阻R0分别用于模拟电池的储能和充放电能量损失,RC网络(R1,C1)和(R2,C2)表征了电池的短期和长期瞬态响应;根据基尔霍夫电流和电压定律,电池的动态特性描述为:式中,SOC(k)、C
n
、I
B
(k)、V
B
(k)分别表示电池的SOC状态、标称容量、充电电流和电压;电池开路电压V
OC
(k)是SOC(k)的非线性函数:V
OC
(k)=g(SOC(k));V1(k)和V2(k)分别表示电容C1和C2两端的电压;R0为恒定电阻;T
C
、T
S
表示电池核心温度和表面温度,根据能量守恒原理计算为:计算为:式中,T
amb
为电池的环境温度;R
C
、R
u
分别表示热传导电阻和对流电阻;C
C
、C
S
分别表示电
池的内部热容和表面热容;电池的温度定义为T
S
和T
C
的平均值:4.根据权利要求1所述的一种基于PPO算法及考虑充电电费的电池快速充电控制方法,其特征在于,步骤(1)所述充电电费优化模型构建过程如下:最小化电池从任意初始电量SOC(0)到充至期望电量SOC
d
所花费的时间,充电速度对应的目标函数为:minJ1=NT
ꢀꢀꢀꢀ
(5)式中,T表示采样周期,N是SOC(N)=SOC
d
所对应的采样步数;充电成本受电池的充电电流和当前时刻的电价影响,充电成本优化的目标函数为:式中,p(k)是在充电采样周期k时电力的分时电价;J2为电池充电过程中总的电费支出;充电安全约束为:0≤I
B
(k)≤I
max
ꢀꢀꢀ
(7)式中,I
max
是电池的最大允许充电电流;防止电池的SOC、电压和温度超过其允许的限值:式中,SOC
max
、V
max
和T
max
分别代表电池SOC、电压和温度的上限。5.根据权利要求1所述的一种基于PPO算法及考虑充电电费的电池快速充电控制方法,其特征在于,所述步骤(2)实现过程如下:充电速度奖励函数设置为:r
s
(k)=

k
·
|SOC(k)

SOC
d
|
ꢀꢀꢀꢀ
(9)式中,k为当前所处充电步数,SOC(k)为电池在充电步数k时的SOC状态,SOC
d
为目标SOC,即充电完成时期望的SOC;电费成本奖励函数为:r
p
(k)=(p
max

p(k))
·
(SOC(k)

SOC(k
...

【专利技术属性】
技术研发人员:唐鑫欧阳权王志胜
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1