基于分类合并的时序数据预处理及预测方法技术

技术编号：41279332 阅读：6 留言：0更新日期：2024-05-11 09:30

本发明专利技术提供了一种基于分类合并的时序数据预处理及预测方法。它包括以下步骤：采集目标领域的原始时序数据；采用VMD分解算法对原始时序数据进行分解，得到n种频率成分的分解信号；针对分解后的n种分解信号，分别采用K‑means算法进行聚类，每种信号分成2类，一共产生2n种组合；对得到的2n类数据进行数据合并，将合并后的数据分别输入预测模型中进行训练，得到可预测不同类别的时序数据预测模型；利用得到的时序数据预测模型对待测数据进行预测，得到预测结果。与传统直接使用K‑means聚类相比，本发明专利技术提出的方法，分类准确度更高，基于分类训练出来的预测模型对时序数据的预测精度更高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能及时序数据处理领域，具体地说是一种基于分类合并的时序数据预处理及预测方法。

技术介绍

1、时序数据是按照时间顺序排列的数据集合，记录了一系列与时间相关的观测值或事件，具有较强的时间依赖性，这种时间依赖性反映了数据之间的动态关系，对于揭示事件的发展趋势和模式具有关键作用。时序数据在时间上呈现出明显的变化，研究这些特定规律的变动可以更好地预测事件的发生，为决策提供支持。传统的时间序列分析方法是研究时序数据中的模式、趋势和周期性的传统统计方法，通常包括自相关、移动平均、分解和模型拟合等技术，用于揭示数据中的结构和规律。统计学方法在时序数据分析中发挥着关键作用，其中涉及到描述性统计、推断统计和假设检验等技术，用于对数据分布、趋势和相关性进行推断和验证。随着机器学习和深度学习的发展，监督学习算法、无监督学习算法、循环神经网络(rnn)和长短时记忆网络(lstm)等架构被广泛用于时序数据建模和预测。

2、时序数据的分析可以用于预测数据的未来趋势和可能事件，为决策提供有力的支持，这在电力、气象、生产制造等领域都具有广泛的应用。并且，时序数据的异常点可能代表了潜在的问题或突发事件，通过对时序数据的监测和分析，可以及时发现异常，采取相应的措施。在工业生产中，通过分析生产线上的时序数据，洞察事件之间的关联性和因果关系，以找出生产效率的瓶颈并进行优化。

技术实现思路

1、本专利技术的目的是提供一种基于分类合并的时序数据预处理及预测方法，以提升时序数据预测的准确率。>

2、本专利技术是这样实现的：

3、本专利技术提供了一种基于分类合并的时序数据预处理及预测方法，该方法首先采用vmd分解算法对原始时序数据进行分解，获取不同频率的分量，其次通过k-means聚类算法将不同特征的分量聚成一类以深入分析其特征，对原始时序数据进行分解、分类以及合并，随后在划分好的数据子集上应用lstm算法作为特例对时序数据进行预测，同时该方法还可用于cnn-lstm、gru、bp、xgboost等模型。

4、本专利技术所提供的基于分类合并的时序数据预处理及预测方法，包括以下步骤：

5、(1)采集目标领域的原始时间序列数据，对采集到的数据进行数据扩充；

6、(2)采用vmd分解算法对扩充后的时序数据进行分解，每一样本分别得到n种频率成分的分解信号；

7、(3)针对分解后的n种分解信号，分别采用k-means算法进行聚类，每种分解信号分成2类，一共产生2n种组合；

8、(4)对步骤(3)得到的2n种数据进行数据合并，合并后一共得到m类数据，将这m类数据分别输入预测模型中进行训练，得到能够预测不同分类的时序数据预测模型；

9、(5)利用步骤(4)得到的时序数据预测模型对待测数据进行预测，得到预测结果。

10、所述步骤(1)中，对数据进行扩充的步骤如下：

11、采集到的目标领域的原始时间序列数据样本类别可能不平衡，采用smote算法为样本补充数据。新数据生成过程如式(1.1)所示：

12、xnew＝x1+rand(0,1)·(x2-x1) (1.1)

13、以欧氏距离为判据，选择与x1最近邻的数据点x2，从而生成新数据点xnew；rand(0,1)表示随机生成范围在(0,1)区间内的随机数。

14、所述步骤(2)中，具体操作步骤如下：

15、1)对于vmd分解信号来说，首先要构造约束变分问题。

16、将输入信号f(t)分解为k个有限带宽的imf分量uk(t)；其次通过hilbert变换得到各个模态分量对应的解析函数，用以获得其单边频谱；最后在f(t)与各模态分量uk(t)之和相等的约束条件下混合解析函数与中心频率，将uk(t)的频谱移动到基频带。相应约束变分模问题如式(2.1)所示：

17、

18、式中，t为时间；j为虚数单位；f(t)为输入信号；为时间t的偏导数；*为卷积运算；uk(t)为第k个模态函数；δ(t)为点位脉冲函数；ωk为第k个模态函数的中心频率。

19、2)其次求解约束变分问题。

20、引入拉格朗日乘子λ(t)和二次惩罚因子α将上述约束变分问题转化为非约束问题，如公式(2.2)所示：

21、

22、式中，< >表示内积运算。

23、3)基于式(2.3)采用交替方向乘子法迭代更新中心频率、imf分量以及拉格朗日乘子，求取式(2.1)的最优解。

24、

25、式中，分别为f(t)，λn多对应的傅里叶变换；τ为噪声容忍度。

26、4)当满足式(2.4)时，停止迭代。

27、

28、式中，ε为收敛精度，一般取10-7。

29、5)得到目标领域原始时间序列数据经过vmd分解的n类信号。

30、所述步骤(3)中，具体操作步骤如下：

31、1)使用k-means算法对分解的n类信号进行聚类。使用欧式距离来度量数据对象之间的相似度，如式(3.1)所示：

32、

33、式中，d为样本到聚类中心的欧式距离；bi为第i个样本点，aj为第j个聚类中心。

34、2)确定初始聚类数目k以及k个初始聚类中心，本专利技术k值选取2。

35、3)通过计算数据对象与聚类中心之间的相似度，不断更新聚类中心的位置，以逐步降低类簇的误差平方和(sum of squared error，sse)。当sse不再发生变化或目标函数达到收敛时，聚类过程终止，最终得到聚类结果。sse计算过程如式(3.2)所示：

36、

37、式中，k为聚类簇数；zj为第j个簇的聚类中心。

38、4)k-means算法分别将n类信号分为2类，一共得到2n种数据组合。针对任意一种分量，0代表一类，1代表另一类，具体分类情况见表1。

39、表1各分量分类结果

40、

41、所述步骤(4)中，具体操作步骤如下：

42、1)将步骤(3)得到的2n种数据中子集数据量小于总数据集p％的子集合并，合并策略应充分考虑数据分布得到均衡性，并且针对不同数据集的特点对不同的分解信号应赋予不同的合并优先级，以削弱由于样本数量偏少而引入的随机性和噪声，最终将所有数据合并为m类数据。

43、2)将得到的m类数据子集分别输入m个相同的预测模型中进行训练。

44、3)得到m种目标领域的时序数据预测模型。

45、所述步骤(5)具体操作步骤如下：

46、利用步骤(4)得到的时序数据预测模型对待测数据进行预测，得到预测结果。

47、本专利技术提供的技术方案具有的有益效果如下：

48、通过使用vmd分解算法和k-means聚类算法对目标领域原始时序数据进行数据处理，与传统直接使用k-me本文档来自技高网...

【技术保护点】

1.一种基于分类合并的时序数据预处理及预测方法，其特征是，包括如下步骤：

2.根据权利要求1所述的基于分类合并的时序数据预处理及预测方法，其特征是，步骤(4)中将这m类数据分别输入LSTM、CNN-LSTM、GRU、BP或XGBoost预测模型中进行训练。

3.根据权利要求1所述的基于分类合并的时序数据预处理及预测方法，其特征是，步骤(1)中对数据进行扩充，具体是：

4.根据权利要求1所述的基于分类合并的时序数据预处理及预测方法，其特征是，步骤(2)中采用VMD分解算法对扩充后的时序数据进行分解，通过构造约束变分问题和求解约束变分问题得到n类分解信号；

5.根据权利要求1所述的基于分类合并的时序数据预处理及预测方法，其特征是，步骤(2)中将扩充后的时序数据分解为三类信号，分别为高频、中频、低频信号；步骤(4)中p选取的值为10，合并后一共得到四类数据，并选用LSTM作为预测模型；LSTM模型的遗忘阶段是对上一个节点的输入进行选择性遗忘，LSTM通过遗忘门的sigmoid层决定抛弃Ct-1单元中的哪些信息，过程如式(4)所示：

...

【技术特征摘要】

1.一种基于分类合并的时序数据预处理及预测方法，其特征是，包括如下步骤：

2.根据权利要求1所述的基于分类合并的时序数据预处理及预测方法，其特征是，步骤(4)中将这m类数据分别输入lstm、cnn-lstm、gru、bp或xgboost预测模型中进行训练。

3.根据权利要求1所述的基于分类合并的时序数据预处理及预测方法，其特征是，步骤(1)中对数据进行扩充，具体是：

4.根据权利要求1所述的基于分类合并的时序数据预处理及预测方法，其特征是，步骤(2)中采用vmd分解算法对扩充后的时序数据进行分解，通过构造约...

【专利技术属性】
技术研发人员：曹旺斌，王明，郭宝圣，李甲，李丽芬，梅华威，
申请(专利权)人：华北电力大学保定，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人