The invention discloses a method for generating a summary index of time-sequence key-value industrial process data, which comprises S1: acquiring time-sequence key-value industrial process data; S2: smoothing noise pretreatment of acquired time-series data to obtain time-stamped time-series data; S3: using symbol aggregation approximation representation to represent pre-processing. Processing time series data; S4: Symbol aggregation approximate representation of the results of pattern clustering, the results of pattern clustering using prefix algorithm to form an index. The invention has the beneficial effect that, based on the data preprocessing method, the symbolic aggregation approximate representation method and the prefix tree algorithm are fused to form the summary index generation method of the sequential key value industrial process data; the method can reduce the dimension of the original time series data, effectively extract the characteristics of the original data, and adopts the prefix tree. Algorithm for generating summary index.
【技术实现步骤摘要】
一种时序键值型工业过程数据的摘要索引生成方法
本专利技术涉及时间序列数据挖掘
,特别是一种时序键值型工业过程数据的摘要索引生成方法。
技术介绍
时间序列数据广泛存在于工业过程、气候检测、医疗诊断等领域。时序键值型工业过程数据作为一种典型的时间序列数据,具有高维、海量等特点,因此传统的数据摘要索引生成方法不能很好的分析该类数据。符号聚合近似表示是是一种成熟的符号化表示方法,广泛应用于时间序列数据的预处理和模式发现中。其优点在于可以利用较为成熟高效的针对字符串操作的数据挖掘算法。前缀树是一种键树结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。缺点是:当前的时序数据索引方法大多基于单一的降维处理表示或符号化表示方法,难以快速、高效查询时序数据。因此,亟需一种新的时序键值型工业过程数据的摘要索引生成方法。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术的目的就是提供一种时序键值型工业过程数据的摘要索引生成方法,能构建一种应用前缀树算法对其进行编码的索引方法。采用符号聚合近似表示方法表示预处理得到时间序列数据;然后将符号聚合近似表示后的结果进行模式聚类,最后将该聚类结果采用前缀树算法形成索引。本专利技术的目的是通过这样的技术方案实现的,一种时序键值型工业过程数据的摘要索引生成方法,它包括有:S1:获取时序键值型工业过程数据;S2:对获取的时间序列数据作平滑噪声预处理得到具有时间戳的时间序列数据;S3:采用符号聚合近似表示方法表示预处理得到时间序列数据;S4:将符号聚合近似表示后的结果进 ...
【技术保护点】
1.一种时序键值型工业过程数据的摘要索引生成方法,其特征在于,所述方法步骤如下:S1:获取时序键值型工业过程数据;S2:对获取的时间序列数据作平滑噪声预处理得到具有时间戳的时间序列数据;S3:采用符号聚合近似表示方法表示预处理得到时间序列数据;S4:将符号聚合近似表示后的结果进行模式聚类,将进行模式聚类后的结果采用前缀算法形成索引。
【技术特征摘要】
1.一种时序键值型工业过程数据的摘要索引生成方法,其特征在于,所述方法步骤如下:S1:获取时序键值型工业过程数据;S2:对获取的时间序列数据作平滑噪声预处理得到具有时间戳的时间序列数据;S3:采用符号聚合近似表示方法表示预处理得到时间序列数据;S4:将符号聚合近似表示后的结果进行模式聚类,将进行模式聚类后的结果采用前缀算法形成索引。2.如权利要求1所述的时序键值型工业过程数据的摘要索引生成方法,其特征在于,所述步骤S2中的对获取的时间序列数据作平滑噪声预处理的具体步骤如下:S21:对原始时间序列数据进行偏差检测;发现噪声、离群点和不寻常的值,考察每个属性的定义域和数据类型以及每个属性可接受值的范围;S22:通过考察数据领域内的值,通过分箱方法中的按照箱平均值法求得平滑数据值来光滑有序数据,将连续数据离散化,获取预处理后的时序数据,增加粒度。3.如...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。