当前位置: 首页 > 专利查询>江南大学专利>正文

基于三重强化学习的电池制造能力可变权组合预测方法技术

技术编号:37675038 阅读:19 留言:0更新日期:2023-05-26 04:39
本发明专利技术公开了基于三重强化学习的电池制造能力可变权组合预测方法,属于动力电池制造预测领域。该方法针对锂电池制造能力周期性、突变性以及季节性等特征,选择相应模型分别挖掘时间序列中的线性和非线性特征构成新的组合预测模型;针对现有方法难以得到最优组合预测权重的问题,设计了双层强化学习算法求解该时间下最优权重矩阵,降低预测误差;此外,由于在不同时间点各单一预测模型的预测效果也不同,本申请融合强化学习和熵值思想,探索最优滑动窗口长度,运用滑动窗口对预测序列进行划分,并在各窗口内使用双层强化学习算法确定最优组合权重,最终构造三重强化学习电池制造能力组合预测模型,进一步提高了电池制造能力的预测精度和可靠性。预测精度和可靠性。预测精度和可靠性。

【技术实现步骤摘要】
基于三重强化学习的电池制造能力可变权组合预测方法


[0001]本专利技术涉及基于三重强化学习的电池制造能力可变权组合预测方法,属于动力电池制造预测领域。

技术介绍

[0002]近年来,锂电池作为新能源汽车核心部件,其产品的高品质制造领域的研究取得了越来越多的关注。当前的研究领域,研究成果主要集中在对电池产品质量的分析,例如电量监测和电池健康状态估计等领域。但事实上,准确掌握未来一段时间内的电池制造能力,对于电池生产企业合理安排生产计划和制定市场战略规划都有非常重要的意义。然而,当前这一领域的研究成果相对匮乏。
[0003]电池的制造能力可以描述为单位时间内生产合格电池的数量,由于电池的制造能力数据是按照制造时间顺序排列而成的数列,是在相等间隔的时间段内按照确定的采样频率得到的数据结果,可见电池的制造能力数据具有一定的规律性。因此,对锂电池制造能力的预测本质上是一类时间序列预测问题。
[0004]在实际工程中,锂电池的制造能力通常受单位时间内机器的工作情况以及工作人员排班情况等生产因素和电池订单量及交付时间等市场因素的影响,因此现有技术中使用单一的预测方法并不能完整的挖掘出锂电池制造能力的时间序列特征。因此出现了组合模型预测方法,但这类方法则又会涉及到各模型权重的问题,是否获得最优权重系数会直接导致其预测结果的精准性,因此需要考虑最优权重系数的问题如何解决。
[0005]在现有的时变权重选择策略研究成果中,设置滑动窗口是实现时变权重的一种常规方式,选择合适的窗口长度对于预测精度有很大的影响,在以往的研究中,对于窗口长度的选择往往通过观察法或者经验法,通常难以获得最优的滑动窗口长度;相对来说,熵值法可以解决最优滑动窗口长度的问题,但其对算力要求较大,不适合实际应用。
[0006]此外传统的组合模型权重确定方法包括层次分析法和自适应权重法等,然而,这类方法往往难以获得最优权重系数,导致预测精度并不能达到最优。

技术实现思路

[0007]为了实现电池制造能力的准确预测,帮助企业合理安排生产计划和制定市场战略规划,提高经济效益。本专利技术提供了一种基于三重强化学习的电池制造能力可变权组合预测方法,所述方法在进行电池制造能力预测时,首先定义了新的组合预测形式,其次引入滑动窗口并设计第一重强化学习:强化学习

熵算法确定最优窗口长度,最后为了将单一算法的性能充分融合,在每个窗口下设计双层强化学习算法对单一预测结果进行最优权重探索,并将得到的权重进行组合相加得到该时间点下的最优预测值,继续滑动窗口直到对整个预测序列实现最优赋权,实现了电池制造能力可变权组合预测。
[0008]一种基于三重强化学习的电池制造能力可变权组合预测方法,所述方法包括:
[0009]步骤S1,基于LSTM、GRU和SARIMA单一预测模型构建组合预测模型,并根据t时刻前
的历史生产数据,分别利用LSTM、GRU和SARIMA单一预测模型获得t时刻的预测结果
[0010]步骤S2,根据步骤S1中各单一预测模型的预测结果,设计强化学习

熵算法确定滑动窗口长度,获得最优滑动窗口长度l;
[0011]步骤S3,根据步骤S2中获得的最优窗口长度l,对单一预测序列和真实值序列Y
t
进行窗口划分,以k表示划分后的时间点,同时以k时间为第一个数据的窗口称为第k个窗口;记k时刻的预测结果和真实值分别为:Y
k

[0012]步骤S4,根据步骤S3划分后的窗口数据,设计第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优,获得最优组合权重[ω
l

g
],并将所述最优组合权重[ω
l

g
]赋值给窗口内的第一个时间点k,根据权重组合相加得到时间点k处的LSTM和GRU组合预测值
[0013]步骤S5,根据步骤S4得到的LSTM和GRU的最优组合结果与SARIMA预测结果共同进行第三层强化学习组合权重寻优,得到最优组合权重[ω
nn

s
],并计算电池制造能力预测值;
[0014]步骤S6,滑动窗口向后不断更新数据,同时重复步骤S4和步骤S5对应计算当前窗口的最优组合权重,直到最后一个窗口,得到最优组合预测序列
[0015]可选的,所述步骤S2包括:
[0016]步骤S2.1,确定状态矩阵S,状态矩阵选择窗口长度l;
[0017]S=[l]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0018]步骤S2.2,将动作矩阵A设置在上一时刻的状态上进行固定幅度的加减:
[0019]A=[Δω1,

Δω1]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0020]Δω1表示加减幅度;
[0021]步骤S2.3,由真实值Y
t
和预测值计算得t时刻第i种单项预测算法的制造能力绝对预测误差:
[0022][0023]其中t=1,2,...,N,i=1,2,3;
[0024]步骤S2.4:由式(3)计算K种单项预测算法在t时刻的制造能力平均绝对误差:
[0025][0026]步骤S2.5,根据式(4)计算第k个窗口下锂电池制造能力预测数据的平均绝对误差时刻的制造能力平均绝对误差:
[0027][0028]并对平均绝对误差进行归一化:
[0029][0030]步骤S2.6,根据式(6)计算该窗口下的制造能力预测数据的熵值:
[0031][0032]步骤S2.7,引入式(7)设置损失函数L和奖惩函数R,损失函数L设置为:
[0033][0034]当L
l+1
<L
l
时,奖惩函数R设置为:
[0035]R=1+L
t

L
t+1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0036]当L
l+1
>L
l
时,奖惩函数R设置为:
[0037]R=

1+L
t

L
t+1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0038]步骤S2.8,构建强化学习过程,得到最优滑动窗口长度。
[0039]可选的,所述步骤S4包括:
[0040]步骤S4.1,针对LSTM和GRU组合权重寻优问题,设置目标状态矩阵S=[ω
l

g
],其中ω
l

g
=1;
[0041]步骤S4.2,设置动作矩阵A=[Δω2,

Δω2],选择动作,对当前状态的ω
l
进行增减,并得到ω
g
,构成下一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于三重强化学习的电池制造能力可变权组合预测方法,其特征在于,所述方法包括:步骤S1,基于LSTM、GRU和SARIMA单一预测模型构建组合预测模型,并根据t时刻前的历史生产数据,分别利用LSTM、GRU和SARIMA单一预测模型获得t时刻的预测结果步骤S2,根据步骤S1中各单一预测模型的预测结果,设计强化学习

熵算法确定滑动窗口长度,获得最优滑动窗口长度l;步骤S3,根据步骤S2中获得的最优窗口长度l,对单一预测序列和真实值序列Y
t
进行窗口划分,以k表示划分后的时间点,同时以k时间为第一个数据的窗口称为第k个窗口;记k时刻的预测结果和真实值分别为:Y
k
;步骤S4,根据步骤S3划分后的窗口数据,设计第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优,获得最优组合权重[ω
l

g
],并将所述最优组合权重[ω
l

g
]赋值给窗口内的第一个时间点k,根据权重组合相加得到时间点k处的LSTM和GRU组合预测值步骤S5,根据步骤S4得到的LSTM和GRU的最优组合结果与SARIMA预测结果共同进行第三层强化学习组合权重寻优,得到最优组合权重[ω
nn

s
],并计算电池制造能力预测值;步骤S6,滑动窗口向后不断更新数据,同时重复步骤S4和步骤S5对应计算当前窗口的最优组合权重,直到最后一个窗口,得到最优组合预测序列2.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:步骤S2.1,确定状态矩阵S,状态矩阵选择窗口长度l;S=[l]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)步骤S2.2,将动作矩阵A设置在上一时刻的状态上进行固定幅度的加减:A=[Δω1,

Δω1] (6)Δω1表示加减幅度;步骤S2.3,由真实值Y
t
和预测值计算得t时刻第i种单项预测算法的制造能力绝对预测误差:其中t=1,2,...,N,i=1,2,3;步骤S2.4:由式(3)计算K种单项预测算法在t时刻的制造能力平均绝对误差:步骤S2.5,根据式(4)计算第k个窗口下锂电池制造能力预测数据的平均绝对误差时刻的制造能力平均绝对误差:
并对平均绝对误差进行归一化:步骤S2.6,根据式(6)计算该窗口下的制造能力预测数据的熵值:步骤S2.7,引入式(7)设置损失函数L和奖惩函数R,损失函数L设置为:当L
l+1
<L
l
时,奖惩函数R设置为:R=1+L
t

L
t+1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)当L
l+1
>L
l
时,奖惩函数R设置为:R=

1+L
t

L
t+1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)步骤S2.8,构建强化学习过程,得到最优滑动窗口长度。3.根据权利要求2所述的方法,其特征在于,所述步骤S4包括:步骤S4.1,针对LSTM和GRU组合权重寻优问题,设置目标状态矩阵S=[ω
...

【专利技术属性】
技术研发人员:王子赟俞银泉王艳张俊杰纪志成
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1