一种基于动态时间弯曲的时间序列相似性度量方法技术

技术编号:18940985 阅读:24 留言:0更新日期:2018-09-15 11:10
本发明专利技术公开一种时间序列相似性度量方法,该方法将动态时间弯曲算法和导数动态时间弯曲算法结合起来,增加了时间序列相似性度量的准确度,为时间序列的后续研究提供了坚实基础。

A time series similarity measurement method based on dynamic time warping

The invention discloses a time series similarity measurement method, which combines the dynamic time warping algorithm with the derivative dynamic time warping algorithm, increases the accuracy of time series similarity measurement, and provides a solid foundation for the follow-up study of time series.

【技术实现步骤摘要】
一种基于动态时间弯曲的时间序列相似性度量方法
本专利技术涉及数据分析领域,尤其涉及时间序列之间的相似性度量方法。
技术介绍
如今,随着互联网技术、电子设备以及软件技术的不断发展,各行各业时时刻刻都在爆发着庞大的数据,数据的大小呈指数型增长,呈现了数据规模大、数据种类多、更新快以及蕴藏价值达的特点。时间序列是一种现实生活中非常常见且和时间关联、具有先后次序的数值序列或符号序列,尤其在经济、天气、生物医疗等行业常见,同时一些非时间序列数据也可以转换成时序数据来进行分析。因此,怎样从海量的时间序列数据中挖掘出隐藏着的有用信息,是目前数据挖掘领域需要重点研究的内容之一。时间序列数据挖掘是数据挖掘领域的核心子内容,其应用范围十分广泛。作为时间序列数据挖掘中的重要基础性研究,时间序列相似性度量是其他数据挖掘任务实现的前提,比如分类、聚类、异常检测和模式识别等。因此,从某种角度上来看,时间序列相似性度量性能的好坏在一定程度上决定着时间序列数据挖掘算法的效率高低。时间序列的相似性度量方法很多,常见的有欧氏距离(EuclideanDistance,ED)、动态时间弯曲(DynamicTimeWarping,DTW)等。但在众多的度量方法在计算过程中,仅仅计算两个时间序列的距离,而未考虑时间序列的形状特征。因此需要有更好的方法,在计算时间序列距离的同时,将时间序列的形状特征考虑进去。
技术实现思路
为了更好的计算时间序列之间的相似性,本专利技术提供了计算时间序列相似性的方法,不仅考虑了时间序列之间的距离,还考虑了时间序列之间的形状特征,具体技术方案如下:(1)将m个待度量的时间序列的长度统一设置成n,n不小于m个待度量的时间序列中的最长序列的长度;(2)将m个长度为n的时间序列组成一个矩阵Tm×n;(3)通过PCA降维算法对矩阵Tm×n进行降维,得到新的矩阵Tm×l,其中l表示降维后的时间序列长度。(4)计算矩阵Tm×l中的两个时间序列(A和B)之间的DTW距离Dist1。(5)计算矩阵Tm×l中每个时间序列的导数,构成导数时间序列,然后再计算步骤4中的两个时间序列A和B的导数时间序列之间DTW距离Dist2,即时间序列的DDTW距离。(6)最终计算的时间序列相似性大小为Dist=α*Dist1+(1-α)*Dist2,其中α∈(0,1)。(7)根据相似性大小Dist,进行聚类操作,计算聚类结果和相似性大小Dist之间的同源相关系数;取不同得α值,求取使得同源相关系数最大的α'值。(8)根据步骤7获得的α'值,获得时间序列A和B的最终相似性大小Dist=α'*Dist1+(1-α')*Dist2。进一步地,所述步骤1中,n为m个待度量的时间序列中的最长序列的长度。进一步地,所述步骤1中,对于序列长度小于n的时间序列,在序列末尾补0,使之长度为n。本专利技术所涉及的时间序列相似性度量方法,在计算时间序列相似性的过程中,不仅计算了时间序列之间的距离大小,还将时间序列的形状特征考虑进去,使得时间序列的相似性度量更加的准确。附图说明图1不同方法计算出的同源相关系数大小具体实施方式下面结合具体的实施方式对本专利技术的时间序列相似性度量方法进行进一步的阐述。本专利技术提供了计算时间序列相似性的方法,不仅考虑了时间序列之间的距离,还考虑了时间序列之间的形状特征。下面以手机通信记录的时间序列威力,对本专利技术作具体说明如下:1.将2076个待度量的时间序列的长度统一设置成4032,所述4032为2076个待度量的时间序列中的最长序列的长度,对于序列长度小于4032的时间序列,在序列末尾补0,使之长度为4032,即m=2076,n=4032;2.将2076个长度为4032的时间序列组成一个矩阵Tm×n;3.通过PCA降维算法对矩阵Tm×n进行降维,得到新的矩阵Tm×l,其中l表示降维后的时间序列长度,即l=8。4.计算矩阵Tm×l中任意两个时间序列之间的DTW距离Dist1。5.计算矩阵Tm×l中每个时间序列的导数,构成导数时间序列,然后再计算任意两个导数时间序列之间DTW距离Dist2,即时间序列的DDTW距离。6.最终计算的时间序列相似性大小为Dist=α*Dist1+(1-α)*Dist2,其中α∈(0,1)。7.根据相似性大小Dist,进行聚类操作,计算聚类结果和相似性大小Dist之间的同源相关系数;取不同得α值,求取使得同源相关系数最大的α'值。8.根据步骤7获得的α值,获得时间序列的最终相似性大小Dist=α'*Dist1+(1-α')*Dist2。从附图中可以看出,通过使用DDTW方法得到的同源相关系数要高于使用DTW及使用传统的相似性度量方法(如:欧式距离),同时,使用本专利技术所述的方法所得到同源相关系数在某些α值下取得最好的效果,由此可知,本专利技术所述的方法,可以更加准确的反映两个时间序列之间的相似度。本文档来自技高网...

【技术保护点】
1.一种时间序列相似性度量方法,其特征在于,包括如下步骤:(1)将m个待度量的时间序列的长度统一设置成n,n不小于m个待度量的时间序列中的最长序列的长度;(2)将m个长度为n的时间序列组成一个矩阵Tm×n;(3)通过PCA降维算法对矩阵Tm×n进行降维,得到新的矩阵Tm×l,其中l表示降维后的时间序列长度。(4)计算矩阵Tm×l中的两个时间序列(A和B)之间的DTW距离Dist1。(5)计算矩阵Tm×l中每个时间序列的导数,构成导数时间序列,然后再计算步骤4中的两个时间序列A和B的导数时间序列之间DTW距离Dist2,即时间序列的DDTW距离。(6)最终计算的时间序列相似性大小为Dist=α*Dist1+(1‑α)*Dist2,其中α∈(0,1)。(7)根据相似性大小Dist,进行聚类操作,计算聚类结果和相似性大小Dist之间的同源相关系数;取不同得α值,求取使得同源相关系数最大的α'值。(8)根据步骤7获得的α'值,获得时间序列A和B的最终相似性大小Dist=α'*Dist1+(1‑α')*Dist2。

【技术特征摘要】
1.一种时间序列相似性度量方法,其特征在于,包括如下步骤:(1)将m个待度量的时间序列的长度统一设置成n,n不小于m个待度量的时间序列中的最长序列的长度;(2)将m个长度为n的时间序列组成一个矩阵Tm×n;(3)通过PCA降维算法对矩阵Tm×n进行降维,得到新的矩阵Tm×l,其中l表示降维后的时间序列长度。(4)计算矩阵Tm×l中的两个时间序列(A和B)之间的DTW距离Dist1。(5)计算矩阵Tm×l中每个时间序列的导数,构成导数时间序列,然后再计算步骤4中的两个时间序列A和B的导数时间序列之间DTW距离Dist2,即时间序列的DDTW距离。(6)最终计算的...

【专利技术属性】
技术研发人员:刘良桂李炜贾会玲张宇
申请(专利权)人:浙江理工大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1