当前位置: 首页 > 专利查询>重庆大学专利>正文

一种时序键值型工业过程数据的摘要索引生成方法技术

技术编号:18809975 阅读:25 留言:0更新日期:2018-09-01 09:26
本发明专利技术公开了一种时序键值型工业过程数据的摘要索引生成方法,它包括S1:获取时序键值型工业过程数据;S2:对获取的时间序列数据作平滑噪声预处理得到具有时间戳的时间序列数据;S3:采用符号聚合近似表示方法表示预处理得到时间序列数据;S4:将符号聚合近似表示后的结果进行模式聚类,将进行模式聚类后的结果采用前缀算法形成索引。本发明专利技术取得的有益效果是:基于数据预处理方法,将符号聚合近似表示方法与前缀树算法融合,形成时序键值型工业过程数据的摘要索引生成方法;该方法能降低原时间序列数据的维度,有效提取原数据的特征,并采用前缀树算法实现摘要索引生成方法。

A method for generating summary index of industrial data based on time series key value

The invention discloses a method for generating a summary index of time-sequence key-value industrial process data, which comprises S1: acquiring time-sequence key-value industrial process data; S2: smoothing noise pretreatment of acquired time-series data to obtain time-stamped time-series data; S3: using symbol aggregation approximation representation to represent pre-processing. Processing time series data; S4: Symbol aggregation approximate representation of the results of pattern clustering, the results of pattern clustering using prefix algorithm to form an index. The invention has the beneficial effect that, based on the data preprocessing method, the symbolic aggregation approximate representation method and the prefix tree algorithm are fused to form the summary index generation method of the sequential key value industrial process data; the method can reduce the dimension of the original time series data, effectively extract the characteristics of the original data, and adopts the prefix tree. Algorithm for generating summary index.

【技术实现步骤摘要】
一种时序键值型工业过程数据的摘要索引生成方法
本专利技术涉及时间序列数据挖掘
,特别是一种时序键值型工业过程数据的摘要索引生成方法。
技术介绍
时间序列数据广泛存在于工业过程、气候检测、医疗诊断等领域。时序键值型工业过程数据作为一种典型的时间序列数据,具有高维、海量等特点,因此传统的数据摘要索引生成方法不能很好的分析该类数据。符号聚合近似表示是是一种成熟的符号化表示方法,广泛应用于时间序列数据的预处理和模式发现中。其优点在于可以利用较为成熟高效的针对字符串操作的数据挖掘算法。前缀树是一种键树结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。缺点是:当前的时序数据索引方法大多基于单一的降维处理表示或符号化表示方法,难以快速、高效查询时序数据。因此,亟需一种新的时序键值型工业过程数据的摘要索引生成方法。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术的目的就是提供一种时序键值型工业过程数据的摘要索引生成方法,能构建一种应用前缀树算法对其进行编码的索引方法。采用符号聚合近似表示方法表示预处理得到时间序列数据;然后将符号聚合近似表示后的结果进行模式聚类,最后将该聚类结果采用前缀树算法形成索引。本专利技术的目的是通过这样的技术方案实现的,一种时序键值型工业过程数据的摘要索引生成方法,它包括有:S1:获取时序键值型工业过程数据;S2:对获取的时间序列数据作平滑噪声预处理得到具有时间戳的时间序列数据;S3:采用符号聚合近似表示方法表示预处理得到时间序列数据;S4:将符号聚合近似表示后的结果进行模式聚类,将进行模式聚类后的结果采用前缀算法形成索引。进一步,所述步骤S2中的对获取的时间序列数据作平滑噪声预处理的具体步骤如下:S21:对原始时间序列数据进行偏差检测;发现噪声、离群点和不寻常的值,考察每个属性的定义域和数据类型以及每个属性可接受值的范围;S22:通过考察数据领域内的值,通过分箱方法中的按照箱平均值法求得平滑数据值来光滑有序数据,将连续数据离散化,获取预处理后的时序数据,增加粒度。进一步,所述步骤S3的具体步骤如下:S31:对经过步骤S2预处理后得到的时序数据进行等长度分段,取各段的平均值构成新的时序数据用以表示原高维时序数据;S32:对于降维后所得的时序数据,应用符号聚合近似表示方法表示得到该时序数据的离散化近似表示。进一步,所述步骤S4包括有:S41:对于步骤S3所得时序数据符号化表示形式,应用K均值模式聚类方法对S3的结果聚类,得到一串离散化的字符串模式结果;S42:基于上述结果,应用前缀树算法进行编码,形成索引。进一步,所述步骤S31包括有:步骤S2得到的时序数据维数为n,处理后所得维数为N。第i子段均值可由下述公式确定:由于采用了上述技术方案,本专利技术具有如下的优点:本专利技术将分段聚合近似表示方法用于时间序列数据的降维,保证了距离下界准则从而避免了后续相似查询中的漏查行为。本专利技术应用了经典的符号化表示,使得其能在数据降维的基础上进行距离计算,为后续应用如相似查询、异常检测等提供理论依据。最重要的是本专利技术通过应用前缀树算法,最大限度地减少无谓的字符串比较,极大得提高了查询了效率。本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。附图说明本专利技术的附图说明如下:图1为时序键值型工业过程数据的摘要索引生成方法的流程示意图。图2为基于分段聚合近似表示的前缀树算法示例流程图。具体实施方式下面结合附图和实施例对本专利技术作进一步说明。实施例:如图1和图2所示;一种时序键值型工业过程数据的摘要索引生成方法,它包括有:S1:获取时序键值型工业过程数据;S2:对获取的时间序列数据作平滑噪声预处理得到具有时间戳的时间序列数据;所述步骤S2中的对获取的时间序列数据作平滑噪声预处理的具体步骤如下:S21:对原始时间序列数据进行偏差检测;发现噪声、离群点和不寻常的值,考察每个属性的定义域和数据类型以及每个属性可接受值的范围;S22:通过考察数据领域内的值,通过分箱方法中的按照箱平均值法求得平滑数据值来光滑有序数据,将连续数据离散化,获取预处理后的时序数据,增加粒度。例如:箱中数据为:6、8、10,则按照箱平均值法求得的平滑数据值为8,这样该箱中的每一个值都会被替换为8。S3:采用符号聚合近似表示方法表示预处理得到时间序列数据;所述步骤S3的具体步骤如下:S31:对经过步骤S2预处理后得到的时序数据进行等长度分段,取各段的平均值构成新的时序数据用以表示原高维时序数据;所述步骤S31包括有:步骤S2得到的时序数据维数为n,处理后所得维数为N。第i子段均值可由下述公式确定:S32:对于降维后所得的时序数据,应用符号聚合近似表示方法表示得到该时序数据的离散化近似表示。首先确定字母表的大小,即定义符号的种类数为α=5,即把步骤2得到的符合高斯分布的序列按照分割点的大小划分为5个等概率区间,每个区间对应表示一种符号,其中分割点的定义和字母表大小的关系如表1所示。符号按照从低到高的方式进行分配,然后比较序列段的均值和分割点的大小,如果序列段的均值在分割区间内,则将该序列段表示为这个分割区间所对应的符号。即在值小于“-0.84”的区间内,符号表示为A,在“-0.84”至“-0.25”区间内表示的符号为B,在“-0.25”至“0.25”区间内对应符号C,在“0.25”至“0.84”区间对应符号为D,在区间“0.84”及以上的区间对应符号E,从下而上依次为A,B,C,D,E。如表1所示:表1字母表大小从5到10分别对应的分割点S4:将符号聚合近似表示后的结果进行模式聚类,将进行模式聚类后的结果采用前缀算法形成索引。所述步骤S4包括有:S41:对于步骤S3所得时序数据符号化表示序列,应用K均值模式聚类方法对S3的结果聚类,得到一串离散化的字符串模式结果。首先从n个数据对象中任意选择K个对象作为初始聚类中心,根据每个聚类对象的均值(即中心对象),计算每个对象与这些中心对象的欧氏距离根据最小距离重新对相应对象进行划分;再重新计算每个(有变化)聚类的均值(中心对象),如此循环知道每个聚类不再发生变化为止。S42:基于上述聚类结果,应用前缀树算法分别对每个类别的符号序列进行编码,形成索引。应当理解的是,本说明书未详细阐述的部分均属于现有技术。最后说明的是,以上实施例仅用以说明本专利技术的技术方案而非限制,尽管参照较佳实施例对本专利技术进行了详细说明,本领域的普通技术人员应当理解,可以对本专利技术的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本专利技术的权利要求范围当中。本文档来自技高网...

【技术保护点】
1.一种时序键值型工业过程数据的摘要索引生成方法,其特征在于,所述方法步骤如下:S1:获取时序键值型工业过程数据;S2:对获取的时间序列数据作平滑噪声预处理得到具有时间戳的时间序列数据;S3:采用符号聚合近似表示方法表示预处理得到时间序列数据;S4:将符号聚合近似表示后的结果进行模式聚类,将进行模式聚类后的结果采用前缀算法形成索引。

【技术特征摘要】
1.一种时序键值型工业过程数据的摘要索引生成方法,其特征在于,所述方法步骤如下:S1:获取时序键值型工业过程数据;S2:对获取的时间序列数据作平滑噪声预处理得到具有时间戳的时间序列数据;S3:采用符号聚合近似表示方法表示预处理得到时间序列数据;S4:将符号聚合近似表示后的结果进行模式聚类,将进行模式聚类后的结果采用前缀算法形成索引。2.如权利要求1所述的时序键值型工业过程数据的摘要索引生成方法,其特征在于,所述步骤S2中的对获取的时间序列数据作平滑噪声预处理的具体步骤如下:S21:对原始时间序列数据进行偏差检测;发现噪声、离群点和不寻常的值,考察每个属性的定义域和数据类型以及每个属性可接受值的范围;S22:通过考察数据领域内的值,通过分箱方法中的按照箱平均值法求得平滑数据值来光滑有序数据,将连续数据离散化,获取预处理后的时序数据,增加粒度。3.如...

【专利技术属性】
技术研发人员:张可韩载道李媛
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1