【技术实现步骤摘要】
一种基于时序数据LSTM特征的K
‑
Shape聚类方法
[0001]本专利技术涉及数据挖掘
,具体涉及一种基于时序数据LSTM特征的K
‑
Shape聚类方法。
技术介绍
[0002]随着工业互联网概念的提出与发展,日常工作生活上会产生大量的时间序列数据。这种时序数据往往是无标签的,难以直接加以利用或提取信息。因此,如何从海量的时序数据中提取有效的信息成了一个相当重要的课题。
[0003]聚类是无监督学习的一个重要内容,旨在解决无标签的数据的分类问题,一般地,聚类算法将数据集划分到若干个彼此靠近但不同类或簇中,从而得到数据的统计信息。因为时序数据大多为无标签数据,所以使用聚类方法能够较好的提取数据信息并加以利用。
[0004]现有的聚类技术主要是K
‑
均值聚类(K
‑
Means Clustering)。K
‑
均值聚类是以欧氏距离(Euclidean Distance)为距离函数的聚类方法,能反映对应相同时间点的数据之间的位置关系,但是容易受到数值上的离群点的干扰,不能用在不同长度的时序数据间,更无法体现时序数据的波峰、波谷、周期性等动态变化特征。
[0005]有些时序数据有很强的变化趋势相似性,但是因为时间序列数据具有时空上的复杂性,很难从直观的统计上提取和描述其动态特征的物理意义,传统的聚类并不能有效的处理这种相似性,而且没有经过特征提取的时序数据离群点更容易干扰聚类结果。为了解决上述问题,提出一种 ...
【技术保护点】
【技术特征摘要】
1.一种基于时序数据LSTM特征的K
‑
Shape聚类方法,其特征在于,包括以下步骤:S1:收集时间序列数据样本并进行预处理;S2:构建长短期记忆网络并对其进行训练,获得时序特征提取模型,将步骤S1中得到的时序数据输入时序特征提取模型,得到对应时序数据id的时序特征数据并保存;S3:计算步骤S2中时序特征数据的误差平方和及轮廓系数,比较得出最佳聚类数K值;S4:将步骤S2得到的时序特征数据和步骤S3中计算出的最佳聚类数K值带入K
‑
Shape聚类算法,计算形状距离并迭代得出聚类结果。2.根据权利要求1所述的一种基于时序数据LSTM特征的K
‑
Shape聚类方法,其特征在于:所述步骤S1包括以下子步骤:S11:获取时序数据,并将时序数据,数据时间信息,id序号写入建立好的数据库中;S12:对时序数据进行读取和预处理,使用广义ESD假设检验出时序数据的异常大值和异常小值,并做标记;S13:将标记好的异常值进行替换;S14:将处理好的时序数据集保存。3.根据权利要求2所述的一种基于时序数据LSTM特征的K
‑
Shape聚类方法,其特征在于:在所述步骤S13中,使用当前id时序数据的均值或者均值加减一个标准差进行替换。4.根据权利要求2所述的一种基于时序数据LSTM特征的K
‑
Shape聚类方法,其特征在于:当所述时序特征提取模型基于长短期记忆网络实现时,所述步骤S2包括以下子步骤:S21:将处理好异常值的时序数据集进行最大最小归一化处理;S22:建立长短期记忆网络并训练,输入数据并提取出隐藏层的时序特征。5.根据权利要求4所述的一种基于时序数据LSTM特征的K
‑
Shape聚类方法,其特征在于:所述步骤S202具体包括以下子步骤:S221:用以下公式表示长短期记忆网络:i
t
=σ(W
ii
X
t
+b
ii
+W
hi
h
t
‑1+b
hi
)f
t
=σ(W
if
X
t
+b
if
+W
hf
h
t
‑1+b
hf
)g
t
=tanh(W
ig
X
t
+b
ig
+W
hg
h
t
‑1+b
hg
)o
t
=σ(W
io
X
t
...
【专利技术属性】
技术研发人员:王正宇,王平平,丁磊,隆云飞,杨鹏飞,
申请(专利权)人:科大国创软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。