一种基于时序数据LSTM特征的K-Shape聚类方法技术

技术编号：33127527 阅读：38 留言：0更新日期：2022-04-17 00:39

本发明专利技术公开了一种基于时序数据LSTM特征的K

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时序数据LSTM特征的K
‑
Shape聚类方法

[0001]本专利技术涉及数据挖掘
，具体涉及一种基于时序数据LSTM特征的K
‑
Shape聚类方法。

技术介绍

[0002]随着工业互联网概念的提出与发展，日常工作生活上会产生大量的时间序列数据。这种时序数据往往是无标签的，难以直接加以利用或提取信息。因此，如何从海量的时序数据中提取有效的信息成了一个相当重要的课题。
[0003]聚类是无监督学习的一个重要内容，旨在解决无标签的数据的分类问题，一般地，聚类算法将数据集划分到若干个彼此靠近但不同类或簇中，从而得到数据的统计信息。因为时序数据大多为无标签数据，所以使用聚类方法能够较好的提取数据信息并加以利用。
[0004]现有的聚类技术主要是K
‑
均值聚类(K
‑
Means Clustering)。K
‑
均值聚类是以欧氏距离(Euclidean Distance)为距离函数的聚类方法，能反映对应相同时间点的数据之...

【技术保护点】

【技术特征摘要】
1.一种基于时序数据LSTM特征的K
‑
Shape聚类方法，其特征在于，包括以下步骤：S1：收集时间序列数据样本并进行预处理；S2：构建长短期记忆网络并对其进行训练，获得时序特征提取模型，将步骤S1中得到的时序数据输入时序特征提取模型，得到对应时序数据id的时序特征数据并保存；S3：计算步骤S2中时序特征数据的误差平方和及轮廓系数，比较得出最佳聚类数K值；S4：将步骤S2得到的时序特征数据和步骤S3中计算出的最佳聚类数K值带入K
‑
Shape聚类算法，计算形状距离并迭代得出聚类结果。2.根据权利要求1所述的一种基于时序数据LSTM特征的K
‑
Shape聚类方法，其特征在于：所述步骤S1包括以下子步骤：S11：获取时序数据，并将时序数据，数据时间信息，id序号写入建立好的数据库中；S12：对时序数据进行读取和预处理，使用广义ESD假设检验出时序数据的异常大值和异常小值，并做标记；S13：将标记好的异常值进行替换；S14：将处理好的时序数据集保存。3.根据权利要求2所述的一种基于时序数据LSTM特征的K
‑
Shape聚类方法，其特征在于：在所述步骤S13中，使用当前id时序数据的均值或者均值加减一个标准差进行替换。4.根据权利要求2所述的一种基于时序数据LSTM特征的K
‑
Shape聚类方法，其特征在于：当所述时序特征提取模型基于长短期记忆网络实现时，所述步骤S2包括以下子步骤：S21：将处理好异常值的时序数据集进行最大最小归一化处理；S22：建立长短期记忆网络并训练，输入数据并提取出隐藏层的时序特征。5.根据权利要求4所述的一种基于时序数据LSTM特征的K
‑
Shape聚类方法，其特征在于：所述步骤S202具体包括以下子步骤：S221：用以下公式表示长短期记忆网络：i
t
＝σ(W
ii
X
t
+b
ii
+W
hi
h
t
‑1+b
hi
)f
t
＝σ(W
if
X
t
+b
if
+W
hf
h
t
‑1+b
hf
)g
t
＝tanh(W
ig
X
t
+b
ig
+W
hg
h
t
‑1+b
hg
)o
t
＝σ(W
io
X
t
...

【专利技术属性】
技术研发人员：王正宇，王平平，丁磊，隆云飞，杨鹏飞，
申请(专利权)人：科大国创软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人