当前位置: 首页 > 专利查询>河海大学专利>正文

一种水文时间序列模体挖掘方法技术

技术编号:6909890 阅读:191 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种水文时间序列模体挖掘方法。本发明专利技术通过对现有GB-VLMD模体挖掘算法进行改进,对其数据压缩表示阶段所使用的SAX压缩表示方法进行改进,使用更适合水文数据特点的小波变换、极值点分解和符号化提取的组合数据压缩表示方法,同时保留了该算法模体挖掘阶段所使用的Sequitur语法推导算法。本发明专利技术方法适合水文数据的特点,满足了水文数据序列模体挖掘需求。

【技术实现步骤摘要】

本专利技术涉及一种时间序列模体挖掘方法,尤其涉及。
技术介绍
模体是生物学名词,它代表在一组序列中重复出现的相似片段模式。这组序列可以是蛋白质序列、RNA序列、DNA序列等。时间序列模体数据挖掘就是利用数据挖掘思想,在时间序列中找出重复出现的相似片段的过程。与传统相似性查找不同,进行模体挖掘前,并不知道重复出现的片段的具体特性,如长度,出现的位置,频率等。水文领域积累了大量的观测数据,这些数据中蕴藏着自然演变的规律和人类活动对下垫面影响的信息。通过序列模式挖掘技术发现这些时空序列中蕴藏的洪水频率/周期、水文情势突变等物理规律能够为水文预测预报、防汛调度等提供辅助决策支持。虽然模体数据挖掘技术应用广泛,但在水文领域,尚未见相关研究报道。在水文领域,时间序列模体数据挖掘具有重要意义。例如,我们可以从水位、流量时间序列中找出重复出现的相似洪灾或旱情的水文过程进而发现它们的内在规律。除此之外,我们还可能发现一些意想不到的模式,如洪水和旱情之间前后关联的模式。自从2002年Lin首次提出时间序列模体挖掘概念后[2],经过近10年发展,人们提出 了很多算法。文献[J. Lin,E. Keogh, S. Lonardi, and P. Patel. Finding motifs in time series[C]. In proceedings of the 2nd Workshop on Temporal Data Mining, at ACM SIGKDD' 02,2002. ] Hdj EMMA (Enumeration of Motifs through Matrix Approximation) 模体挖掘算法。该算法主要有两个部分组成,一是数据的压缩表示过程SAX,另一个是使用Shasha and Wang的ADM(Approximation Distance Map)算法进行最近邻居确定的挖掘过禾呈° Chiu 等[B. Chiu,E. Keogh,and S. Lonardi. Probabilistic discovery of time series motifs. In Proc. of KDD,03,2003.]提出基于随机投影(random projection) 的近似模体挖掘方法。文献[T. B. Ho, D. Cheung, and H. Liu (Eds. ),Locating Motifs in Time-Series Data[C], PAKDD 2005, LNAI 3518, pp.343-353, Springer-VerlagBerlin Heidelberg]提出了致密球(dense ball)的概念在时间序列里一个模体(motif)就是在m维空间里,去掉所有平凡匹配(trivial matches,或无价值匹配)后,包含有最多数据点的致密球。i^erreira等提出一种自下而上的类似于层次聚合聚类(hierarchical agglomerative clustering)的方法来进行模体挖掘[Pedro G. Ferreira, 1 Paulo J. Azevedo let al, Mining Approximate Motifs in Time Series[C]. In proceedings of the 9th International Conference on Discovery Science, Lecture Notes in Computer Science, vol 4265,2006, pp.89-101, Springer-Verlag Berlin Heidelberg]。 文献[A. Mueen, Ε. Keogh, Q.Zhu, S. Cash, and B. ffestover. Exact Discovery of Time Series Motifs[C]. In proceedings of the 2009SIAM International Conference on Data Mining(SDM09). 2009]提出了一种新的找寻精确模体的算法,该算法的基本思想是如果两个子序列在原始数据空间中距离很近,那么它们在投影空间的距离依然很近。但这些算法都有一个共同的缺点需要用户指定一个表示待发现模体长度的参数,而这个长度在挖掘前用户很可能不知道或者非常难以确定。由于上述模体挖掘算法都不能很好解决模体变长问题,2010年Li等人在论文 [Li, Y. &Lin, J. Approximate Variable-Length Time Series Motif Discovery Using Grammar Inference[C]. In proceedings of the Multimedia Data Mining Workshop, in conjunction with ACM SIGKDD 2010. Washington DC, July 25,2010.]中提出 GB-VLMD(Grammar Based-Variable Length Motif Discovery)的算法,该算法最大的特点是不需要指定模体长度参数便可以在只遍历一次数据的情况下,挖掘出不同长度的模体。 该算法主要包括两个步骤,分别是SAX (Symbolic Aggregate approximation, SAX,符号聚合近似)压缩表示和kquitur模体挖掘阶段,下面分别对这两阶段进行简要介绍。SAX压缩表示可分为两个阶段,第一阶段为PAA(Piecewise Aggregate Approximation, PAA,分段聚合近似)过程阶段,即用一段序列的平均值代表该序列,第二阶段为符号化,即用不同的符号(字母)来表示前一阶段的平均值。一段原本η维的时间序列通过PAA过程被降为w维,数据也因此被分为w段等间隔的“小框”,此过程涉及唯一参数NPW(numbers per word),其值为n/w,该参数表示每个平均值^所表示的原时间序列数据的数量,是压缩粒度的标志。PAA过程的本质是把较长的序列先分成间隔相等的若干区间,再在每一区间中用该区间的平均值来代表该区间中的所有值,因为是平均值,所以可以较好的反应出这个区间所有值的一个总体特征,这样PAA过程就在保留原始数据基本特征的基础上起到了降维的作用。附图说明图1显示了一段数据在PAA过程前后的样貌,曲线表示长度为256个时间单位的原始时间序列,折线表示经过PAA过程处理以后的该时间序列。可以看出,虽然处理后的时间序列由先前的256维降为8维,但依然可以较好反映原始数据的高低起伏。符号化过程建立在PAA过程之上,其作用是根据一定规则给在PAA过程中得到的等间隔区间上的平均值G配以字母符号,从而达到把连续数据符号化(离散化)的目的。 选定将要分配的不同字母数A,然后根据高斯分布曲线可以进行区间分界点的确定工作,这里区间的个数等于A,当确定好区间分界点后,再依次给每个区间分配字母,符号化过程因此涉及唯一参数A,表示字符集的大小,也是分配区间的数量。设PAA得到的平均值为本文档来自技高网...

【技术保护点】
1.一种水文时间序列模体挖掘方法,包括以下步骤:步骤1、将原始水文时间序列数据集进行数据压缩表示;步骤2、利用Sequitur算法进行语法推导,得到模体集;其特征在于,所述步骤1具体按照以下方法:步骤101、利用小波变换对原始水文时间序列数据集进行降噪处理;步骤102、找出降噪处理后的数据集中的极值点;步骤103、按照预先设定的规则将各极值点赋予相应的字符;步骤104、将各极值点对应的字符依次排列,得到字符串,该字符串即为数据压缩表示的原始水文时间序列数据集。

【技术特征摘要】
1.一种水文时间序列模体挖掘方法,包括以下步骤 步骤1、将原始水文时间序列数据集进行数据压缩表示; 步骤2、利用kquitur算法进行语法推导,得到模体集; 其特征在于,所述步骤1具体按照以下方法步骤101、利用小波变换对原始水文时间序列数据集进行降噪处理; 步骤102、找出降噪处理后的数据集中的极值点; 步骤103、按照预先设定的规则将各极值点赋予相应的字符;步骤104、将各极值点对应的字符依次排列,得到字符串,该字符串即为数据压缩表示的原始水文时间序列数据集。2...

【专利技术属性】
技术研发人员:朱跃龙李士进王继民彭力冯钧万定生
申请(专利权)人:河海大学
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1