一种基于时序数据LSTM特征的K-Shape聚类方法技术

技术编号:33127527 阅读:18 留言:0更新日期:2022-04-17 00:39
本发明专利技术公开了一种基于时序数据LSTM特征的K

【技术实现步骤摘要】
一种基于时序数据LSTM特征的K

Shape聚类方法


[0001]本专利技术涉及数据挖掘
,具体涉及一种基于时序数据LSTM特征的K

Shape聚类方法。

技术介绍

[0002]随着工业互联网概念的提出与发展,日常工作生活上会产生大量的时间序列数据。这种时序数据往往是无标签的,难以直接加以利用或提取信息。因此,如何从海量的时序数据中提取有效的信息成了一个相当重要的课题。
[0003]聚类是无监督学习的一个重要内容,旨在解决无标签的数据的分类问题,一般地,聚类算法将数据集划分到若干个彼此靠近但不同类或簇中,从而得到数据的统计信息。因为时序数据大多为无标签数据,所以使用聚类方法能够较好的提取数据信息并加以利用。
[0004]现有的聚类技术主要是K

均值聚类(K

Means Clustering)。K

均值聚类是以欧氏距离(Euclidean Distance)为距离函数的聚类方法,能反映对应相同时间点的数据之间的位置关系,但是容易受到数值上的离群点的干扰,不能用在不同长度的时序数据间,更无法体现时序数据的波峰、波谷、周期性等动态变化特征。
[0005]有些时序数据有很强的变化趋势相似性,但是因为时间序列数据具有时空上的复杂性,很难从直观的统计上提取和描述其动态特征的物理意义,传统的聚类并不能有效的处理这种相似性,而且没有经过特征提取的时序数据离群点更容易干扰聚类结果。为了解决上述问题,提出一种基于时序数据LSTM特征的K

Shape聚类方法。

技术实现思路

[0006]本专利技术所要解决的技术问题在于:如何解决现有算法存在的不足,提供了一种基于时序数据LSTM特征的K

Shape聚类方法,该方法能够很好地提取出时序数据的动态特征,并计算比较时序数据特征的动态变化趋势,进而加以聚类,能够显著的提升模型的聚类效果和鲁棒性。
[0007]本专利技术是通过以下技术方案解决上述技术问题的,本专利技术包括以下步骤:
[0008]S1:收集时间序列数据样本并进行预处理;
[0009]S2:构建长短期记忆网络并对其进行训练,获得时序特征提取模型,将步骤S1中得到的时序数据输入时序特征提取模型,得到对应时序数据id的时序特征数据并保存;
[0010]S3:计算步骤S2中时序特征数据的误差平方和轮廓系数,比较得出最佳聚类数K值;
[0011]S4:将时序特征数据和步骤S3中计算出的最佳聚类数K值带入K

Shape聚类算法,计算形状距离并迭代得出聚类结果。
[0012]更进一步地,所述步骤S1包括以下子步骤:
[0013]S11:获取时序数据,并将时序数据,数据时间信息,id序号写入建立好的数据库中;
[0014]S12:对时序数据进行读取和预处理,使用广义ESD假设检验出时序数据的异常大值和异常小值,并做标记;
[0015]S13:将标记好的异常值进行替换;
[0016]S14:将处理好的时序数据集保存。
[0017]更进一步地,在所述步骤S11中,采用CSV格式保存数据。
[0018]更进一步地,在所述步骤S13中,使用当前id时序数据的均值或者均值加减一个标准差进行替换。
[0019]更进一步地,当所述时序特征提取模型基于长短期记忆网络实现时,所述步骤S2包括以下子步骤:
[0020]S21:将处理好异常值的时序数据集进行最大最小归一化处理,计算公式为:
[0021]其中,x为单条时序数据,x
max
为时序数据集的全局最大值,x
min
为时序数据集的全局最小值;
[0022]S22:建立长短期记忆网络并训练,输入数据并提取出隐藏层的时序特征。
[0023]更进一步地,所述步骤S202具体包括以下子步骤:
[0024]S221:用以下公式表示长短期记忆网络:
[0025]i
t
=σ(W
ii
X
t
+b
ii
+W
hi
h
t
‑1+b
hi
)
[0026]f
t
=σ(W
if
X
t
+b
if
+W
hf
h
t
‑1+b
hf
)
[0027]g
t
=tanh(W
ig
X
t
+b
ig
+W
hg
h
t
‑1+b
hg
)
[0028]o
t
=σ(W
io
X
t
+b
io
+W
ho
h
t
‑1+b
ho
)
[0029]C
t
=f
t
*C
t
‑1+i
t
*g
t
[0030]h
t
=o
t
*tanh(C
t
)
[0031]其中,W和b分别是各项的系数和偏置,i
t
是t时间点的输入门,f
t
是t时间点遗忘因子,g
t
是学习门输出的短期记忆,o
t
是输出门,C
t
是当前的细胞状态,h
t
表示长短期记忆的输出;
[0032]S222:用部分时序数据作为训练集训练长短期记忆网络,并用其余时序数据进行验证,得到训练好的长短期记忆模型和参数;
[0033]S223:将整个时序数据集带入训练好的长短期记忆模型并提取时序特征数据集。
[0034]更进一步地,所述步骤S3包括以下子步骤:
[0035]S31:计算时序数据的误差平方和并得到K值,公式为:
[0036]其中,C
i
为第i个簇,y为时序特征数据样本点,m
i
为样本均值(质心);
[0037]S32:计算时序数据的轮廓系数并得到最优K值,公式为:
[0038]其中,a(i)是样本i在A簇的簇内平均不相似度,b(i)为样本i和次优选簇B内各点的平均不相似度;
[0039]S33:误差平方和法和轮廓系数法的最优K值相同时,选取误差平方和法/轮廓系数法的最优K值,作为最佳聚类数K值。
[0040]更进一步地,在所述步骤S33中,如果两种方法的最优K值不同,则最佳聚类数K取
值于误差平方和法和轮廓法中最优K值范围的交集。
[0041]更进一步地,所述步骤S4包括以下子步骤:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序数据LSTM特征的K

Shape聚类方法,其特征在于,包括以下步骤:S1:收集时间序列数据样本并进行预处理;S2:构建长短期记忆网络并对其进行训练,获得时序特征提取模型,将步骤S1中得到的时序数据输入时序特征提取模型,得到对应时序数据id的时序特征数据并保存;S3:计算步骤S2中时序特征数据的误差平方和及轮廓系数,比较得出最佳聚类数K值;S4:将步骤S2得到的时序特征数据和步骤S3中计算出的最佳聚类数K值带入K

Shape聚类算法,计算形状距离并迭代得出聚类结果。2.根据权利要求1所述的一种基于时序数据LSTM特征的K

Shape聚类方法,其特征在于:所述步骤S1包括以下子步骤:S11:获取时序数据,并将时序数据,数据时间信息,id序号写入建立好的数据库中;S12:对时序数据进行读取和预处理,使用广义ESD假设检验出时序数据的异常大值和异常小值,并做标记;S13:将标记好的异常值进行替换;S14:将处理好的时序数据集保存。3.根据权利要求2所述的一种基于时序数据LSTM特征的K

Shape聚类方法,其特征在于:在所述步骤S13中,使用当前id时序数据的均值或者均值加减一个标准差进行替换。4.根据权利要求2所述的一种基于时序数据LSTM特征的K

Shape聚类方法,其特征在于:当所述时序特征提取模型基于长短期记忆网络实现时,所述步骤S2包括以下子步骤:S21:将处理好异常值的时序数据集进行最大最小归一化处理;S22:建立长短期记忆网络并训练,输入数据并提取出隐藏层的时序特征。5.根据权利要求4所述的一种基于时序数据LSTM特征的K

Shape聚类方法,其特征在于:所述步骤S202具体包括以下子步骤:S221:用以下公式表示长短期记忆网络:i
t
=σ(W
ii
X
t
+b
ii
+W
hi
h
t
‑1+b
hi
)f
t
=σ(W
if
X
t
+b
if
+W
hf
h
t
‑1+b
hf
)g
t
=tanh(W
ig
X
t
+b
ig
+W
hg
h
t
‑1+b
hg
)o
t
=σ(W
io
X
t
...

【专利技术属性】
技术研发人员:王正宇王平平丁磊隆云飞杨鹏飞
申请(专利权)人:科大国创软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1