【技术实现步骤摘要】
基于目标特征的时间序列相似性计算方法
[0001]本专利技术涉及计算机大数据挖掘与应用领域,具体涉及一种基于目标特征的时间序列相似性计算方法。
技术介绍
[0002]时间序列(Time Series)是一组按时间先后顺序对某一物理量进行观测得到的有序数据,这些数据通常是观察事件发生的记录或者特定模式的数值。这种数据在经济、医学、金融、气象等社会经济领域都有涉及。如商品在某一季度的销售额、病人在某个时段的心率变化、金融证券市场中某支股票的价格变动、天气预报中某地区的温度与湿度变化数据等。海量的时间序列数据形成规模庞大的时间序列数据库,在数据库中真实记录了各个时刻的所有应用数据信息。如果能够找到某种方法可以合理高效地处理这些数据,发现他们内部的相互关系,序列数据中的潜在信息便可以被充分挖掘,大大提高时间序列数据的实际使用价值。而时间序列数据挖掘的主要研究目的在于如何快速、有效的发现时间序列的潜在信息。
[0003]如何确定时间序列数据之间的距离,也即如何度量两个序列之间的相似度,是时间序列数据挖掘的基础问题,在kNN、S ...
【技术保护点】
【技术特征摘要】
1.一种基于目标特征的时间序列相似性计算方法,其特征在于,包括以下步骤:S1.对一元时间序列训练集中的数据进行归一化处理;S2.定义时间序列的目标特征及其计算方式,并求出目标特征时序,将一元时序转换为目标特征时序组成的多元时序;S3.根据不同种类目标特征时序,将训练集中时间序列依次与其他时序数据的对应特征时序进行DTW距离计算,再根据距离进行1-NN分类,计算各种特征进行分类时的准确度,同时记录这个过程中各类目标特征距离的中位数,依据分类准度和中位数算出各目标特征的权重W;S4.对于待求距的两个时间序列归一化处理后,分别求出其目标特征时序,计算同类目标特征间的距离,再以S3求出的权重W进行加权累加,得到目标特征动态时间弯曲距离。2.根据权利要求1所述的基于目标特征的时间序列相似性计算方法,其特征在于,步骤S1中:对有k条数据的训练集数据D进行扫描,首先归一化到区间[0,1]中,归一方式如公式(1)所示:其中s
i
为时序原始数据,s
min
、s
max
分别为时序中的最大值和最小值。3.根据权利要求1所述的基于目标特征的时间序列相似性计算方法,其特征在于,步骤S2中:定义目标特征,即定义使用者关注或关心的特征,例如针对金融数据,可以定义以下目标特征:时间序列中相隔5点价格变动最大的10%的位置、价格变动最小的10%的位置,时间序列中相隔10点价格变动最大的5%的位置、价格变动最小的5%的位置,对时间序列进行100分段PAA均值处理后最大的40各位置、最小的40个位置,对时间序列进行50分段PAA均值处理后最大的20个位置、最小的20个位置等;根据使用者定义的目标特征,再定义各...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。