当前位置: 首页 > 专利查询>河海大学专利>正文

一种多度量时间序列相似分析方法技术

技术编号:9668053 阅读:133 留言:0更新日期:2014-02-14 06:37
本发明专利技术公开一种多度量时间序列相似分析方法,适用于时间序列的k-近邻查询。根据分析需求选择多个单一相似度量方法,分别利用各单一相似度量分析查询序列的m-近邻序列或子序列;对各相似度量下的m-近邻序列或子序列进行修剪,得到候选相似序列或子序列;利用带优势权重的多分类器组合法对候选相似序列或子序列进行组合得到查询序列的k-近邻序列。相对于单一相似度量,多度量组合的相似分析能够得到更加全面的分析结果。带优势权重的多分类器组合法在借鉴BORDA计数法的同时,利用相邻候选相似序列或子序列与查询序列的相似距离的差异对排序得分进行调整,以反映候选相似序列或子序列相似的具体差异。

【技术实现步骤摘要】

本专利技术涉及,尤其是能够进行多度量组合的k-近邻相似时间序列分析的方法,属于数据挖掘

技术介绍
时间序列相似性查找就是在时间序列数据库中查找和发现与给定模式相似的时间序列,查找相似子序列的过程在实际问题中经常遇到,例如,在人类的基因组计划中,从DNA基因序列中查找出与给定的基因片段相似的子片段,根据遗传的相似性进行研究;根据各种商品的销售记录,找出具有相似的商品销售模式,根据相似产品的销售模式来制定相似的销售策略等;找出自然灾害发生的相同前兆,从而对预报自然灾害进行决策研究;在水文领域,找出与当前洪水过程相似的历史洪水过程,回答防汛指挥中经常会想到的“当前水文过程与历史上哪一时期的水文过程类似”等问题。相似性搜索在1993年由R.Agrawal首次提出,他是时间序列预测、分类、聚类以及序列模式挖掘等等的重要基础。时间序列相似性查找与传统的精确查询不同,由于时间序列在数值上具有连续性以及有不同的噪声影响,因此,大部分情况下不需要时间序列很精确匹配。另一方面是时间序列相似性查询不是针对时间序列中的某个具体的数值,而根据给定的查询序列来找查找是在一段时间内具有相似形态特征和变化趋势的时间序列。在时间序列相似性搜索中,需解决的问题包括时间序列特征提取、时间序列索引以及相似度量等。针对相似度量,研究人员提出了各种度量方法,如欧氏距离及其基于Lp准则的变种、动态时间弯曲距离(Dynamic Time Warping, DTW)、编辑距离(Edit Distance, ED)、模式距离(Pattern Distance, PD)、以及最长公共子串(Longest Common Subsequence, LCSS)等。目前时间序列相似性搜索大多采用单一相似度量来评价序列之间的相似性,每个相似度量只从某个角度评价序列之间的相似程度,如,模式距离、斜率距离等从序列形态角度考虑相似,欧式距离则从序列取值的实际大小考虑相似,动态时间弯曲DTW可以忽略序列在时间上的扭曲。在实际使用时发现,往往运用单一的相似度量模型,不能同时从多个角度对时间序列相似性进行多角度评价,反馈的结果往往不准确,不能满足用户对时间序列相似性的综合评价。模式识别与机器学习研究领域,有一个很重要的问题就是多分类器的组合问题,目前众多的研究表明,多分类器组合能获得比单个基分类器更好的效果,多个分类器组合在一起的决策结果,往往比单个分类器给出决策结果更有说服力,它可以集中各个基分类器的优点,从而更好的引导我们的进行决策。在时间序列相似性分析研究领域,多度量组合进行相似性分析目前文献较少。Fabris F提出一种基于权重的多度量时间序列相似性分析[Fabris F,Drago I, Varejao F M.A mult1-measure nearest neighboralgorithm for time series classification.Advances in Artificial Intelligence -1BERAMIA2008.Springer Berlin Heidelberg, 2008:153-162.],采用启发式搜索确定各度量的权重,相似距离为各度量距离的加权和,该方法需要花费大量时间寻求最优的权重向量,同时需要预先确定训练集。本专利技术借鉴BORDA计数法并对其进行改进,提出带优势权重的多分类器组合法,然后对多相似度量产生的候选相似序列(子序列)进行组合排序,以获取最终的相似序列(子序列)。
技术实现思路
专利技术目的:本专利技术提供一种多度量时间序列相似性分析方法,提高时间序列相似性分析的效率。为了实现上述目的,本专利技术借鉴BORDA计数法并对其进行改进,提出带优势权重的多分类器组合法以适应对各单一相似度量的相似序列(子序列)进行组合排序的需求,并在此基础上提供了一种多度量时间序列k-近邻分析方法。时间序列相似性分析从被查询的对象来分可以包括全序列查询(Whole Match)和子序列查询(Subsequence Match)。全序列查询,即待查时间序列中包括多个等长或不等长的时间序列,指定查询序列,从待查序列中查找与查询序列相似的序列。子序列查询,即从一个长的待查时间序列中查找与指定查询序列相似的子序列,结果包括各相似子序列在待查序列中的偏移位置。本专利技术的多度量时间序列相似性分析方法适用于全序列和子序列的k-近邻查询。技术方案:,包括以下步骤:借鉴并改进BORDA计数法,提出带优势权重的多分类器组合法,在对多个单一相似度量产生的候选相似序列(子序列)进行组合时,采用各候选相似序列(子序列)之间的定量差距对其排序得分进行加权,从而在排序得分中体现不同候选相似序列(子序列)的具体差距,候选相似序列(子序列)排序得分的累计称为该候选相似序列(子序列)的相似得分,对候选相似序列(子序列)按照相似得分从高到低排序,得到候选相似序列(子序列)的最终排序;根据具体相似性分析需求(如,形态相似、时间方向可扭曲等)从已有的时间序列相似性度量中选择多种单一相似度量作为基分类器;利用选择的相似度量方法对待查时间序列进行相似性分析,得到m-近邻序列(子序列),m的取值要略大于最终的k ;由于各单一相似度量产生的相似序列(子序列)一般不具有相同起始时间,因此对相似序列(子序列)进行修剪,将各单一相似度量产生的相似序列(子序列)中在时间上重叠超过序列长度一半的序列进行对齐,删除出现次数少于相似度量数一半的时间段内的相似序列(子序列),得到候选相似序列(子序列),包括序列分组预处理、对齐重叠序列、删除孤立序列以序列重新排序;利用带优势权重的多分类器组合法对候选相似序列(子序列)进行组合排序,按照候选相似序列(子序列)的相似得分从高到低排序,取排名前k个序列,得到最终的k-近邻序列(子序列)。有益效果:与传统的单一相似度量相比,本专利技术可以同时考虑多方面的相似性因素,使得相似结果能够反映用户对结果的综合评价;本专利技术与Fabris.F的方法相比,能够在没有训练数据集的情况下对多度量结果进行组合;本专利技术与传统BORDA计数法相比,传统BORDA计数法对候选人的排序得分为第一名得η分,第二名得η_1分,依次降低,最后一名得I分。排序得分没有反映排名前后的候选相似序列(子序列)之间的具体差距大小,造成某些情况下不能很好的对候选相似序列(子序列)进行排序。带优势权重的多分类器组合法根据各单一相似度量产生的候选相似序列(子序列)与查询序列之间的相似距离对候选序列(子序列)的排序得分进行加权,使得排名先后的序列之间的排序得分能够更加具体的反映其与查询序列之间的相似差距,得到的相似序列(子序列)的最终更加精确。【附图说明】图1为本专利技术实施例的多度量时间序列相似性分析方法模型图;图2为本专利技术实施例的多度量时间序列相似性分析方法相似查询的流程图;图3为本专利技术实施例的多度量时间序列相似性分析方法的用于k_近邻子序列查询的相似子序列修剪示意图;图4为本专利技术实施例的多度量时间序列相似性分析方法的用于k_近邻全序列查询的相似序列修剪示意图;图5为实验的单洪峰洪水过程相似查询结果图,其中(a)欧式距离相似子序列和查询序列的比较,(b) DTff距离相似子序列和查询序列本文档来自技高网
...

【技术保护点】
一种多度量时间序列相似性分析方法,适用于时间序列的k?近邻查询,其特征在于,所述方法包括以下步骤:根据分析需求选择多种单一相似度量作为基分类器;对待查询时间序列按照所选择的单一相似度量的需要提取特征,建立索引;利用各单一相似度量对待查序列进行相似性分析,得到查询序列的m?近邻时间序列;对各单一相似度量下的m?近邻时间序列进行修剪,得到候选相似序列或子序列;利用带优势权重的多分类器组合法对候选相似序列或子序列进行组合得到最终的k?近邻时间序列。

【技术特征摘要】
1.一种多度量时间序列相似性分析方法,适用于时间序列的k-近邻查询,其特征在于,所述方法包括以下步骤: 根据分析需求选择多种单一相似度量作为基分类器; 对待查询时间序列按照所选择的单一相似度量的需要提取特征,建立索引; 利用各单一相似度量对待查序列进行相似性分析,得到查询序列的m-近邻时间序列; 对各单一相似度量下的m-近邻时间序列进行修剪,得到候选相似序列或子序列; 利用带优势权重的多分类器组合法对候选相似序列或子序列进行组合得到最终的k-近邻时间序列。2.根据权利要求1所述的多度量时间序列相似性分析方法,其特征在于,作为基分类器的各单一相似度量是根据分析的需求从已有的相似度量中由用户选择;各单一相似度量都将待查序列分为第I相似序列、第2相似序列、…、第m相似序列以及不相似序列这样的m+1 类。3.根据权利要求1所述的多度量时间序列相似性分析方法,其特征在于,每个单一相似度量的分析步骤具体为:提取时间序列特征,建立时间序列索引,运用时间序列相似性搜索方法,结合相似度量,检索m-近邻时间序列,m取值略大于k。4.根据权利要求1所述的多度量时间序列相似性分析方法,其特征在于,对各单一相似度量下的m-近邻序列进行修剪的步骤具体为:将各单一相似度量的m-近邻序列按照时间顺序排列,对各单一相似度量的相似序列之间交叉超过序列长度一半的序列进行修剪,修剪方法为,选择新的时间序列代替交叉的序列,新序列的起点为交叉序列的起点时间的...

【专利技术属性】
技术研发人员:王继民朱跃龙李士进万定生冯钧
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1