The invention relates to a time series similarity prediction method based on DTW, which belongs to the technical field of time series data mining. The method cascaded the currently known methods for speeding up DTW, such as LB_Kim, LB_Keogh, inverse LB_Keogh, and traditional DTW methods, and filtering the query set at different stages using different methods. At the same time, in order to improve the query accuracy, we introduce Z score standardization, standardization of the query sequence before the calculation of DTW distance, in the process of reading data, synchronization of standardization, further improve the efficiency of the algorithm. Then, the improved DTW method is applied to the analog synthesis prediction of time series, so as to improve the prediction speed and accuracy. This method makes full use of the advantages of different methods, effectively improves the query speed of time series, and then improves the speed and accuracy of analog synthesis prediction method.
【技术实现步骤摘要】
一种基于DTW的时间序列相似性预测方法
本专利技术属于数据挖掘
,特别是时间序列数据挖掘
,涉及一种基于DTW的时间序列相似性预测方法。
技术介绍
动态时间规整(DynamicTimeWarping,DTW)是时间序列的一个强大的相似性度量方法。虽然我们常见的欧氏距离计算简单、容易理解,但它要求两条时间序列的长度必须相等,且对时间轴伸缩和弯曲问题无能为力。DTW距离定义了序列之间的最佳对齐匹配关系,支持不同长度时间序列的相似性度量,支持时间轴的伸缩和弯曲。由于DTW距离比欧式距离有更好的鲁棒性,因此被广泛用于时间序列的相似性度量,这是很多时间序列数据挖掘问题的基础,比如分类和聚类以及预测等。然而,DTW的时间和空间复杂度较高,导致基于DTW的数据挖掘效率很低。因此,如何降低DTW时空复杂度成为了当前的研究重点和难点。DTW最早是用于语音识别中的一项技术,目前在金融、生物、化学以及机器人等领域都有广泛的应用,特别是在多媒体数据领域。目前,对DTW进行加速的方法主要有以下两种:1)添加全局约束。这种方法的目的是对DTW中的规整路径进行全局约束,即限定一个序列中的点只能同另一序列中位置相近的某些点进行匹配。然而,该方法由于只针对查询空间进行约束,并未从实质上降低DTW方法的复杂度,且在查询时,由于查询范围的限制,存在误报情况。2)利用下界距离进行过滤。该方法的主要思想是寻找一种计算更简单的距离度量来粗略地估计DTW距离,称为DTW下界距离,通过它可以过滤掉大部分不满足相似性要求的序列,从而提高查询效率。然而,该类方法,如果下界距离选取复杂度较高,则会 ...
【技术保护点】
一种基于DTW的时间序列相似性预测方法,其特征在于:该方法包括以下步骤:S1:生成类比模式和参考模式:假设一个一维时间序列为T={x
【技术特征摘要】
1.一种基于DTW的时间序列相似性预测方法,其特征在于:该方法包括以下步骤:S1:生成类比模式和参考模式:假设一个一维时间序列为T={x1,x2,…,xm,…xm+k},先假定已有合适的模式长度k,则生成类比模式C={x1,x2,…,xm}和参考模式Q={xm+1,xm+2,…,xm+k},其中类比模式为时间序列T中的历史数据,参考模式为时间序列最近的发展趋势;S2:构造类比模式C的封带,所述封带指的是利用全局约束条件得到序列的上下边界,其边界所包含的部分;对C进行z-score标准化,z-score标准化是基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化,定义如下:其中,x为X中的数据点,μ为X的均值,σ为X的标准差;S3:利用LB_kimFL方法对类比模式C进行过滤,所述LB_kimFL方法为LB_kim方法的改进,具体如下:LB_kim方法通过提取四元组特征向量,包括序列第一个元素、最后一个元素和序列的最大值和最小值,该下界利用提取四元组中个向量之间平方差最大值最为下界,其算法复杂度为O(N),特征提取的计算公式如下:由于进行标准化后的时间序列数据的最大和最小值对于整个下界距离贡献较小,因此,去除原来LB_kim方法中提取的四个特征点中的最大和最小值,只保留起始点和终止点,称为LB_kimFL方法,其算法复杂度降为O(1),定义如下:S4:利用LB_keogh方法对查询集进行过滤;S5:利用LB_rkeogh方法进行过滤,当步骤S4中的方法计算得到的下界距离还未超出预定阈值时,利用LB_rkeogh方法进行进一步判断;S6:经过步骤S5得到与参考模...
【专利技术属性】
技术研发人员:陶洋,李鹏亮,熊炫睿,沈敬红,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。