一种基于DTW的时间序列相似性预测方法技术

技术编号:15501000 阅读:134 留言:0更新日期:2017-06-03 22:34
本发明专利技术涉及一种基于DTW的时间序列相似性预测方法,属于时间序列数据挖掘技术领域。该方法将目前已知的对DTW进行加速的方法,如LB_Kim、LB_Keogh、逆LB_Keogh和传统的DTW方法等进行级联,在不同阶段利用不同方法对查询集进行过滤。同时,为了提高查询准确性,我们引入z‑score标准化,在计算DTW距离之前对查询序列进行标准化,在读取数据的过程中,同步进行标准化,进一步提高算法效率。然后,将改进的DTW方法应用到时间序列的类比合成预测方法中,从而提高预测的速度与精度。本方法充分利用不同方法的优点,有效的提高了时间序列的查询速度,继而提高了类比合成预测方法的速度和准确性。

A method for similarity prediction of time series based on DTW

The invention relates to a time series similarity prediction method based on DTW, which belongs to the technical field of time series data mining. The method cascaded the currently known methods for speeding up DTW, such as LB_Kim, LB_Keogh, inverse LB_Keogh, and traditional DTW methods, and filtering the query set at different stages using different methods. At the same time, in order to improve the query accuracy, we introduce Z score standardization, standardization of the query sequence before the calculation of DTW distance, in the process of reading data, synchronization of standardization, further improve the efficiency of the algorithm. Then, the improved DTW method is applied to the analog synthesis prediction of time series, so as to improve the prediction speed and accuracy. This method makes full use of the advantages of different methods, effectively improves the query speed of time series, and then improves the speed and accuracy of analog synthesis prediction method.

【技术实现步骤摘要】
一种基于DTW的时间序列相似性预测方法
本专利技术属于数据挖掘
,特别是时间序列数据挖掘
,涉及一种基于DTW的时间序列相似性预测方法。
技术介绍
动态时间规整(DynamicTimeWarping,DTW)是时间序列的一个强大的相似性度量方法。虽然我们常见的欧氏距离计算简单、容易理解,但它要求两条时间序列的长度必须相等,且对时间轴伸缩和弯曲问题无能为力。DTW距离定义了序列之间的最佳对齐匹配关系,支持不同长度时间序列的相似性度量,支持时间轴的伸缩和弯曲。由于DTW距离比欧式距离有更好的鲁棒性,因此被广泛用于时间序列的相似性度量,这是很多时间序列数据挖掘问题的基础,比如分类和聚类以及预测等。然而,DTW的时间和空间复杂度较高,导致基于DTW的数据挖掘效率很低。因此,如何降低DTW时空复杂度成为了当前的研究重点和难点。DTW最早是用于语音识别中的一项技术,目前在金融、生物、化学以及机器人等领域都有广泛的应用,特别是在多媒体数据领域。目前,对DTW进行加速的方法主要有以下两种:1)添加全局约束。这种方法的目的是对DTW中的规整路径进行全局约束,即限定一个序列中的点只能同另一序列中位置相近的某些点进行匹配。然而,该方法由于只针对查询空间进行约束,并未从实质上降低DTW方法的复杂度,且在查询时,由于查询范围的限制,存在误报情况。2)利用下界距离进行过滤。该方法的主要思想是寻找一种计算更简单的距离度量来粗略地估计DTW距离,称为DTW下界距离,通过它可以过滤掉大部分不满足相似性要求的序列,从而提高查询效率。然而,该类方法,如果下界距离选取复杂度较高,则会降低整体查询效率;如果下界距离选取比较简单,又会降低过滤效果,增大候选集,产生误报。传统的时间序列分析预测方法将时间序列数据匹配到某些数学模型中,然后再对其整体进行分析和预测。但这些数据模型往往对数据有必要的限制,而现实中许多数据不能满足模型参数要求。基于时间序列相似性的类比合成方法是一种典型的非参数回归方法,其非参数回归特性使得它能够很好的规避上述问题,所以该方法日渐成为时间序列预测领域的研究焦点,然而,传统的类比合成方法在选取距离度量方法时,大多使用的是欧式距离,由于该方法不能处理时间序列的伸缩,平移等。所以,利用该方法得到的相似序列具有一定的局限性,其用于后期合成预报的参考模式数据质量不高,从而会影响后期预测的准确性。因此,如何综合考虑下界距离复杂度与下界距离过滤能力,从而实现时间序列快速而且准确的查询,进而将其应用到类比合成预测方法中目前来说很少有人进行研究,但具有重要的研究意义。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于DTW的时间序列相似性预测方法,该方法将目前已知的对DTW进行加速的方法,如LB_Kim、LB_Keogh、逆LB_Keogh和传统的DTW方法等进行级联,在不同阶段利用不同方法对查询集进行过滤。同时,为了提高查询准确性,我们引入z-score标准化,在计算DTW距离之前对查询序列进行标准化,在读取数据的过程中,同步进行标准化,进一步提高算法效率。然后,将改进的DTW方法应用到时间序列的类比合成预测方法中,从而提高预测的速度与精度。为达到上述目的,本专利技术提供如下技术方案:一种基于DTW的时间序列相似性预测方法,该方法包括以下步骤:S1:生成类比模式和参考模式:假设一个一维时间序列为T={x1,x2,…,xm,…xm+k},先假定已有合适的模式长度k,则生成类比模式C={x1,x2,…,xm}和参考模式Q={xm+1,xm+2,…,xm+k},其中类比模式为时间序列T中的历史数据,参考模式为时间序列最近的发展趋势;S2:构造类比模式C的封带,所述封带指的是利用全局约束条件得到序列的上下边界,其边界所包含的部分;对C进行z-score标准化,z-score标准化是基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化,定义如下:其中,x为X中的数据点,μ为X的均值,σ为X的标准差;选择z-score标准化的原因是利用z-score标准化方法得到的标准化时间序列的形状与原始时间序列较为接近,因此其经常被用于时间序列数据挖掘任务中。S3:利用LB_kimFL方法对类比模式C进行过滤,所述LB_kimFL方法为LB_kim方法的改进,具体如下:LB_kim方法通过提取四元组特征向量,包括序列第一个元素、最后一个元素和序列的最大值和最小值,该下界利用提取四元组中个向量之间平方差最大值最为下界,其算法复杂度为O(N),特征提取的计算公式如下:由于进行标准化后的时间序列数据的最大和最小值对于整个下界距离贡献较小,因此,去除原来LB_kim方法中提取的四个特征点中的最大和最小值,只保留起始点和终止点,称为LB_kimFL方法,其算法复杂度降为O(1),定义如下:S4:利用LB_keogh方法对查询集进行过滤;由于LB_kim方法的过滤能力有限,因此还有一大部分的非候选集序列需要过滤,因此选择过滤效果较好的LB_keogh方法对序列进行再次过滤;S5:利用LB_rkeogh方法进行过滤,当步骤S4中的方法计算得到的下界距离还未超出预定阈值时,利用LB_rkeogh方法进行进一步判断;S6:经过步骤S5得到与参考模式相似的序列候选集S,那么得到的相似序列结果为S={Q1,Q2,…,Qn};接下来从S中的相似序列按照相似性大小进行排序,得到S’={Q1’,Q2’,…,Qn’};根据实验,从中选取p个最相似序列,最为合成预报的参考模式,最终的得到整合的参考模式Q,={Q,Q1’,Q2’,…,QP’},将其用于下一步的合成预报;S7:将得到的参考模式利用加权平均法进行合成预报。进一步,在所述步骤S2中,利用的全局约束条件是Sakoe-Chiba约束,该方法是通过参数r来限制弯曲路径偏离对角线的带状约束。进一步,在所述步骤S4中,引入Sakoe-Chiba约束条件,将其用于构造参考模式Q的封带EQ:设Q封带的上下边界分别为U={um+1,um+2,…,um+i,…,um+k}和L={lm+1,lm+2,…,lm+i,…,lm+k},则基于DTW的下界函数LB_keogh定义如下:进一步,在所述步骤S5中,LB_rkeogh是将LB_keogh中的Q和C进行调换,构造C的封带,这意味着Q要和C的封带Ec进行比较;C封带的上下边界为U={u1,u2,…,um}和L={l1,l2,…,lm},那么其定义如下:当该方法不能再进一步过滤查询集时,便计算Q和C的DTW距离,将其放入候选集,其计算公式如下:Ddtw(Q,C)=f(M,N)(8)其中,Dbase(ci,qi)表示向量点ci和qi之间的基距离,可以根据情况进行选择。为不失一般性,在本专利技术中使用欧式距离作为基距离,即Dbase(ci,qi)=|ci-qi|。本专利技术的有益效果在于:本专利技术提供的方法针对当前查询方法的准确性和查询效率不高的情况,利用目前已知的对DTW进行加速的方法,如LB_kim、LB_keogh、LB_rkeogh和传统的DTW方法等进行级联,在不同阶段利用不同方法对查询集进行过滤。同时,引入z-score标准化,在计算DTW距离之前对查本文档来自技高网
...
一种基于DTW的时间序列相似性预测方法

【技术保护点】
一种基于DTW的时间序列相似性预测方法,其特征在于:该方法包括以下步骤:S1:生成类比模式和参考模式:假设一个一维时间序列为T={x

【技术特征摘要】
1.一种基于DTW的时间序列相似性预测方法,其特征在于:该方法包括以下步骤:S1:生成类比模式和参考模式:假设一个一维时间序列为T={x1,x2,…,xm,…xm+k},先假定已有合适的模式长度k,则生成类比模式C={x1,x2,…,xm}和参考模式Q={xm+1,xm+2,…,xm+k},其中类比模式为时间序列T中的历史数据,参考模式为时间序列最近的发展趋势;S2:构造类比模式C的封带,所述封带指的是利用全局约束条件得到序列的上下边界,其边界所包含的部分;对C进行z-score标准化,z-score标准化是基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化,定义如下:其中,x为X中的数据点,μ为X的均值,σ为X的标准差;S3:利用LB_kimFL方法对类比模式C进行过滤,所述LB_kimFL方法为LB_kim方法的改进,具体如下:LB_kim方法通过提取四元组特征向量,包括序列第一个元素、最后一个元素和序列的最大值和最小值,该下界利用提取四元组中个向量之间平方差最大值最为下界,其算法复杂度为O(N),特征提取的计算公式如下:由于进行标准化后的时间序列数据的最大和最小值对于整个下界距离贡献较小,因此,去除原来LB_kim方法中提取的四个特征点中的最大和最小值,只保留起始点和终止点,称为LB_kimFL方法,其算法复杂度降为O(1),定义如下:S4:利用LB_keogh方法对查询集进行过滤;S5:利用LB_rkeogh方法进行过滤,当步骤S4中的方法计算得到的下界距离还未超出预定阈值时,利用LB_rkeogh方法进行进一步判断;S6:经过步骤S5得到与参考模...

【专利技术属性】
技术研发人员:陶洋李鹏亮熊炫睿沈敬红
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1