一种基于斜率弹性相似性度量方法技术

技术编号:17615756 阅读:35 留言:0更新日期:2018-04-04 06:56
本发明专利技术提供的是一种基于斜率弹性相似性度量方法。步骤一:输入时间序列x和y及过滤参数λ,进行l1趋势过滤,输出折线X和Y;步骤二:计算折线X和Y各分段加权斜率,折线X和Y用加权斜率表示为kx和ky;设定等距间隔参数d,等距插入加权斜率;步骤三:经过插值处理后,形成两个新不等长序列,使用动态时间弯曲距离DTW计算不等长序列的趋势距离。本发明专利技术把时间序列通过滤波特征表示为折线段,保留了趋势信息并实现了降维;线段权重斜率可实现趋势的度量比较;通过等距插值以适应DTW等间隔计算,实现了弹性度量。

A method based on the similarity measure of slope elasticity

The present invention provides a method based on slope elastic similarity measurement. Step one: the input time series of X and Y and the filter parameter a, L1 trend of filtration, and Y X output line; step two: X and Y calculated line segment weighted slope, X and Y line with the weighted slope for KX and KY; set equidistant parameters D, equidistant insertion step weighted slope; three: after the interpolation, the formation of two new unequal sequence, using dynamic time warping distance calculation DTW unequal trend distance. In the invention, time series are represented as filter segments by filtering features, preserving trend information and realizing dimensionality reduction. The line segment weight slope can realize the comparison of trend comparison; through equidistant interpolation to adapt to DTW equal interval calculation, the elastic measurement is realized.

【技术实现步骤摘要】
一种基于斜率弹性相似性度量方法
本专利技术涉及的是一种对传感器在目标跟踪与检测过程中产生的大量时间序列数据进行挖掘时间序列数据的方法。
技术介绍
在海试试验与评估中,传感器在目标跟踪与检测过程中产生大量时间序列数据,这些时间序列数据数量大、维数多,并且包含大量噪声。但是,这些时间序列数据中隐藏着事物发展的趋势和规律,挖掘时间序列数据有着重要的意义。时间序列挖掘包括时间序列相似性搜索、分类、聚类、预测及离群点检测等。在这些研究中,时间序列相似性度量是研究的前提和基础,一个好的度量方法可以显著提高时间序列挖掘的效率和精度。时间序列相似性度量以距离度量为主,包括欧式距离、马氏距离、动态时间弯曲(DTW)距离等。等长序列距离度量称为锁步度量,不等长序列距离度量称为弹性度量。为了提高效率和排除噪声的干扰,时间序列相似性度量通常与时间序列数据降维和特征表示相结合。数据降维和特征表示常用的方法包括:分段近似表示、基于符号化分段聚合近似、奇异值分解和离散小波变换等。分段近似表示(PAA)对时间序列进行等距分割并利用分段序列均值来表示原分段特征的方法,PAA在一定程度上能够达到压缩数据长度、降低维数的效果,但是PAA分段大小是关键因素,采用均值表示也会造成极值信息的丢失,没有考虑序列数据的趋势变化信息。基于符号化分段聚合近似(SAX)采用等频率直方图和PAA分段符号化的表示方法,在PAA基础上,划分成等概率区间,并用符号表示每一个区间,把时间序列转化成一个符号串。SAX与PAA一样的压缩比率,度量精度较PAA更高。然而,SAX存在和PAA同样的问题。SAX-TD在SAX的基础上被提出,为了解决SAX的不足,在符号化分段基础上,把趋势信息划分成六种情况,并把每一分段开始点和结束点与均值的差的变化作为分段的趋势信息,由于考虑了趋势信息,SAX-TD相较于SAX度量精度更准确。然而,SAX-TD对分段大小比较敏感,如果分段过大,其效果并不明显,并且会出现起始点和结束点值相同的情况,则添加趋势信息无效。以上方法存在一个共性问题,只能对序列点对点的锁步度量,而现实中更多的是对于不等长、存在振幅平移和伸缩时间序列进行“一对多”或“一对零”的比较,即弹性度量。DTW是经典弹性度量方法,然而,DTW时间复杂度过高限制了其使用范围。
技术实现思路
本专利技术的目的在于提供一种结合特征表示和弹性度量的优点,能解决时间序列相似性度量问题的基于斜率弹性相似性度量方法。本专利技术的目的是这样实现的:步骤一:输入时间序列x和y及过滤参数λ,进行l1趋势过滤,输出折线X和Y;步骤二:计算折线X和Y各分段加权斜率,折线X和Y用加权斜率表示为kx和ky;设定等距间隔参数d,等距插入加权斜率;步骤三:经过插值处理后,形成两个新不等长序列,使用动态时间弯曲距离DTW计算不等长序列的趋势距离。本专利技术还可以包括:1、x={(t1,x1)(t2,x2),…,(tm,xm)},y={(t1,y1),(t2,y2,…,(tn,yn)},设定l1过滤参数λ并过滤后,时间序列x和y被线性化为折线,若X由p1个线性分段构成,表示为X={X1,X2,…,XP1},其中Xi={(tli,xli),(tri,xri)},i=1,2,…,p1,tli为第i段起点时间,tri为第i段终点时间;Y由p2个线性分段构成,表示为Y={Y1,Y2,…,Yp2},其中Yj={(tlj,ylj),(trj,yrj)},j=1,2,…,p2,tlj为第j段起点时间,trj为第j段终点时间。2、为X的<tli,tri>分段的斜率,为Y的<tlj,trj>分段的斜率。3、设定一个等距间隔参数d,若(tri-tli)>d,则对此分段插值,每隔d个时间点插入一个值,若分段长度小于d或者最后插值剩余不足d,不需要插入值。第i段插入的值为:其中,ki为第i段斜率,(tri-tli)/tn为分段权重,d为等距间隔参数。锁步度量方法不能解决噪声干扰、振幅平移及伸缩等问题,而DTW弹性度量方法对噪声敏感且时间复杂度过高。考虑到,时间序列特征表示可以消除噪声干扰,降低序列维数。若结合特征表示和弹性度量的优点,则可行之有效的解决时间序列相似性度量问题。本专利技术针对SAX_TD不能弹性度量和DTW时间复杂度过高的事实,提出了基于斜率弹性度量方法SESM,引入l1趋势过滤,把原时间序列特征表示为连续折线段,并按照线段长度计算带有权重的斜率值,得到每一分段趋势信息,然后,按照统一大小划分分段并插入相应权重斜率值,得到一个新的趋势序列,最后,应用DTW度量序列相似度。本专利技术的SESM方法有三个优势:第一,把时间序列通过滤波特征表示为折线段,保留了趋势信息并实现了降维;第二,线段权重斜率可实现趋势的度量比较;第三,通过等距插值以适应DTW等间隔计算,实现了弹性度量。附图说明图1是本专利技术的操作流程图;图2是l1趋势过滤流程图;图3a-3b时间序列斜率模式示意图,图3a折线斜率表示、图3b折线插值斜率表示;图4是两条不等长序列动态时间弯曲(DTW)距离计算模拟图,图中局部距离是计算线段加权斜率差值;图5中(1)、(2)、(3)经l1趋势过滤后特征表示为(4)、(5)、(6);图6是把图5中(4)、(5)、(6)用X、Y、Z表示,比较X、Y、Z之间EU、PAA、SAX、SAX_TD、DTW、SESM距离,已知X与Z最相似,其次X与Y相似。图7a-7b是4类时间序列聚类分析结果,图7a中(1)与(2)、(3)与(4)、(5)与(6)、(7)与(8)是同一类。图7b中由Euc、SAX_TD、DTW和SESM距离度量聚类层次图。具体实施方式下面举例对本专利技术做更详细的描述。输入:时间序列x={x1,x2,…,xm}和y={y1,y2,…,yn},l1过滤参数λ及分段参数d。输出:度量距离Dist(x,y)。步骤一:输入时间序列x和y及过滤参数λ,进行l1趋势过滤。输出折线段X和Y。步骤二:计算线性分段序列X和Y加权斜率表示为kx和ky;设定插值阈值d,等距插入加权斜率值。步骤三:插值处理后,形成两个新不等长序列kx和ky,使用DTW(kx,ky)计算趋势距离。(1)由于时间序列通常维数高、数据量大并且噪声干扰严重,直接在时间序列上进行相似性度量不但花费高昂的存贮和计算,而且影响算法的准确性和可靠性。所以,首先对时间序列l1趋势过滤,把原时间序列转化为折线,折线反映了时间序列整体趋势,并且达到压缩数据、去除噪声干扰,提高效率和精度的目的。给定两个一维时间序列x和y,x={(t1,x1)(t2,x2),…,(tm,xm)},y={(t1,y1),(t2,y2,…,(tn,yn)},设定l1过滤参数λ并过滤,时间序列x和y被线性化为折线,若x由p1个线性分段构成,表示为X={X1,X2,…,XP1},其中Xi={(tli,xli),(tri,xri)},i=1,2,…,p1。tli为第i段起点时间,tri为第i段终点时间。Y由p2个线性分段构成,表示为Y={Y1,Y2,…,Yp2},其中Yj={(tlj,ylj),(trj,yrj)},j=1,2,…,p2。tlj为第j段起点时间,本文档来自技高网
...
一种基于斜率弹性相似性度量方法

【技术保护点】
一种基于斜率弹性相似性度量方法,其特征是:步骤一:输入时间序列x和y及过滤参数λ,进行l1趋势过滤,输出折线X和Y;步骤二:计算折线X和Y各分段加权斜率,折线X和Y用加权斜率表示为kx和ky;设定等距间隔参数d,等距插入加权斜率;步骤三:经过插值处理后,形成两个新不等长序列,使用动态时间弯曲距离DTW计算不等长序列的趋势距离。

【技术特征摘要】
1.一种基于斜率弹性相似性度量方法,其特征是:步骤一:输入时间序列x和y及过滤参数λ,进行l1趋势过滤,输出折线X和Y;步骤二:计算折线X和Y各分段加权斜率,折线X和Y用加权斜率表示为kx和ky;设定等距间隔参数d,等距插入加权斜率;步骤三:经过插值处理后,形成两个新不等长序列,使用动态时间弯曲距离DTW计算不等长序列的趋势距离。2.根据权利要求1所述的基于斜率弹性相似性度量方法,其特征是:x={(t1,x1)(t2,x2),…,(tm,xm)},y={(t1,y1),(t2,y2,…,(tn,yn)},设定l1过滤参数λ并过滤后,时间序列x和y被线性化为折线,若X由p1个线性分段构成,表示为X={X1,X2,…,XP1},其中Xi={(tli,xli),(tri,xri)},i=1,2,…,p1,tli为第i段起点时间,tri为第i段终点时间;...

【专利技术属性】
技术研发人员:王念滨张海彬宋奎勇王红滨周连科白云鹏原明旗王勇军陈田田何茜茜
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1