当前位置: 首页 > 专利查询>广州大学专利>正文

一种联合LTTB与时间序列局部特征的数据降维压缩方法技术

技术编号:35470277 阅读:20 留言:0更新日期:2022-11-05 16:15
本发明专利技术公开了一种联合LTTB与时间序列局部特征的数据降维压缩方法,包括以下步骤:S1:对数据进行LTTB降维处理;S2:进行Shapelet transform。其中步骤S1采用002LTTB数据降维方法是对于每一个桶,算法都根据最大有效面积MEA选出一个最重要的点代表当前的桶,从而实现数据降维。本发明专利技术兼顾计算资源和分类精度的平衡,将LTTB数据降维压缩方法与Shapelettransform相结合,使用LTTB降维后的数据进行Shapelet transform,在保持分类精度的同时实现快速Shapelets提取,加快了Shapelet transform的整个流程。transform的整个流程。transform的整个流程。

【技术实现步骤摘要】
一种联合LTTB与时间序列局部特征的数据降维压缩方法


[0001]本专利技术涉及数据降维压缩
,具体涉及一种联合LTTB与时间序列局部特征的数据降维压缩方法。

技术介绍

[0002]目前基于Shapelet transform的时间序列数据挖掘方法在提取Shapelets时,需要计算Shapelets与时间序列之间的距离。在实际的分类问题中,数据集通常是比较大的,从原始时间序列中直接提取Shapelets的效率较低。因此亟需基于Shapelet Transform开发一种快速提取Shapelets的方法。
[0003]计算一个Shapelet和数据集中所有时间序列的次数为(k
×
m
×
n)次。时间序列的数目n决定了数据集的大小,数据集越大,越有利于模型拟合;候选Shapelets的数目k决定了分类器的精度。因此,要加快Shapelets的提取速度最好从每个时间序列的长度m入手。
[0004]现有的联合LTTB(Largest Triangle Three Buckets)与时间序列局部特征的数据降维压缩方法解决的关键问题在于:减小时间序列的长度;在减小时间序列的长度的同时保留原始时间序列的形状特征。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供一种联合LTTB与时间序列局部特征的数据降维压缩方法,以解决上述
技术介绍
中提出的问题。
[0007](二)技术方案
[0008]为实现上述目的,本专利技术提供如下技术方案:
[0009]一种联合LTTB与时间序列局部特征的数据降维压缩方法,包括对数据进行LTTB降维处理、进行Shapelet transform,包括以下步骤:
[0010]S1:对数据进行LTTB降维处理;
[0011]S2:进行Shapelet transform。
[0012]优选的,所述S1中002LTTB数据降维方法最初由Sveinn等于2013年提出,该降维方法最大的效果是降维后的时间序列形状能跟原始时间序列形状基本保持一致;LTTB把一条时间序列分成若干个大致相同的桶(buckets),对于每一个桶,算法都根据最大有效面积MEA(Max Effect Area)选出一个最重要的点(IP点)代表当前的桶,从而实现数据降维;首先对时间序列进行分桶处理,如图1所示,图中点A~G为一条时间序列中的前7个连续点,点A分在桶B1内,点B~D分在桶B2内,点E~G分在桶B3内。
[0013]优选的,所述S1中如图1所示,LTTB算法一次处理三个桶,由时间序列的第一个测量点开始,从时间序列的左边到右边依次对时间序列进行降维处理,LTTB算法定义1:在一条时间序列内,第一个桶和最后一个桶仅仅包含时间序列的第一个点和最后一个点,确保这些点在降维采样的过程中,因此在图1中的三个桶内,第一个桶B1只含有一个点A,A点为
桶B1的IP点,LTTB算法定义2:使用虚拟固定点Vp作为图1中第三个桶B3的三角形面积计算点,虚拟固定点Vp由B3桶内所有点的均值得来,用虚拟固定点Vp代替真实点的作用是节省计算时间,当进行分桶工作时,如果每个桶内都有100个点时,在选出桶B2和B3中的IP点需要计算100
×
100次;用虚拟固定点Vp进行计算则该过程只用计算100次,因此Vp点作为图1中第三个桶B3的IP点。
[0014]优选的,所述S1中使用暴力搜索的方法计算第二个桶B2的所有点与A点和Vp点的面积,当某点与A点和Vp点构成的三角形的面积为最大时,该点则为第二个桶内的IP点,如图1所示,点B与点A和点Vp构成的三角形的面积比点C或点D与点A和点Vp构成的三角形的面积大,因此点B为桶B2的IP点,每个桶选择一个IP点,得到LTTB降维后的时间序列数据。
[0015]优选的,所述S2中将降维后的数据制作成符合Shapelet transform算法的学习集transform算法的学习集由经过LTTB降维后的时间序列TS和这些时间序列所对应的类别标签C组成,在学习集中,每个时间序列中的每个子序列都被认为是候选Shapelets,并使用蛮力法搜索这些候选Shapelets。除了蛮力法,还有其他寻找候选Shapelets的方法,如早放弃、容许熵剪枝等方法,仅以蛮力法作说明。子序列是时间序列的一部分,一条有N个测量点的时间序列,子序列的长度范围是(3

N)个观测点,因此它有N

3+1种不同长度的子序列。使用蛮力法搜索,得到长度为3的子序列有98个,长度为4的子序列有97个,以此类推,得到所有候选Shapelets。得到候选Shapelets之后,计算候选Shapelets与学习集中所有时间序列之间的距离,使用欧几里得距离作为候选Shapelets和每个时间序列之间的相似性度量,欧几里得距离仅是衡量相似度的其中一种方法,随着所需进行压缩降维的大数据类型的不同,可更换其他衡量相似度的方法。欧几里得距离的定义为:型的不同,可更换其他衡量相似度的方法。欧几里得距离的定义为:计算候选Shapelets和每个时间序列之间的流程如图2所示,计算某一候选Shapelets CS1和某一时间序列TS2的距离,由CS1从TS2的开头到结尾,计算若干个dis(X,Y),并选出距离最小的值作为CS1和TS2之间的距离,由于时间序列预先经过LTTB算法降维处理,该步骤得以加快。
[0016]优选的,所述S2中得到候选Shapelets后,为了提取最具有分类信息的Shapelets,例如信息增益(Information Gain,IG),H检验(Kruskal

Wallis)、F统计量(F

statistic)等分割度量被用作评估这些Shapelets分类质量的标准方法。本专利以信息增益(Information Gain,IG)为例,一个数据集S,有A和B两类数据;考虑一种分割规则,它将数据集S分为两部分,S
A
和S
B
,则信息增益IG表达为
[0017]优选的,所述S2中E(S)、E(S_A)和E(S_B)为数据集S、S_A和S_B的熵,并由由IG值的大小得出正式Shapelets,由于数据先前经过LTTB处理,提取Shapelets的效率增快,得到正式Shapelets后,进行Shapelet transform工作,Shapelet transform将时间序列数据从时域转换到Shapelet域,得到一个距离矩阵,距离矩阵中的特征是每个Shapelets和时间序列之间的距离,并附加Shapelets的标签类别到每行的末尾,如下图3所示。
[0018]优选的,所述S2中Shapelet transform后,结合随机森林算法进行时间序列数据挖掘工作,随机森林分类器首先经过Shapelet transform的训练集上训练,得到训练完毕
的具有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合LTTB与时间序列局部特征的数据降维压缩方法,其特征在于,包括以下步骤:S1:对数据进行LTTB降维处理;S2:进行Shapelet transform。2.根据权利要求1所述的联合LTTB与时间序列局部特征的数据降维压缩方法,其特征在于:所述步骤S1具体是采用002 LTTB数据降维方法,将降维后的时间序列形状能跟原始时间序列形状基本保持一致;LTTB把一条时间序列分成若干个大致相同的桶,对于每一个桶,算法都根据最大有效面积MEA选出一个最重要的点代表当前的桶,从而实现数据降维;首先对时间序列进行分桶处理,如图1所示,图中点A~G为一条时间序列中的前7个连续点,点A分在桶B1内,点B~D分在桶B2内,点E~G分在桶B3内。3.根据权利要求2所述的联合LTTB与时间序列局部特征的数据降维压缩方法,其特征在于:所述步骤S1,采用的LTTB算法一次处理三个桶,由时间序列的第一个测量点开始,从时间序列的左边到右边依次对时间序列进行降维处理,LTTB算法定义1:在一条时间序列内,第一个桶和最后一个桶仅仅包含时间序列的第一个点和最后一个点,确保这些点在降维采样的过程中,因此在图1中的三个桶内,第一个桶B1只含有一个点A,A点为桶B1的IP点,LTTB算法定义2:使用虚拟固定点Vp作为第三个桶B3的三角形面积计算点,虚拟固定点Vp由B3桶内所有点的均值得来,用虚拟固定点Vp代替真实点的作用是节省计算时间,当进行分桶工作时,如果每个桶内都有100个点时,在选出桶B2和B3中的IP点需要计算100
×
100次;用虚拟固定点Vp进行计算则该过程只用计算100次,因此Vp点作为第三个桶B3的IP点。4.根据权利要求2所述的联合LTTB与时间序列局部特征的数据降维压缩方法,其特征在于:所述步骤S1,使用暴力搜索的方法计算第二个桶B2的所有点与A点和Vp点的面积,当某点与A点和Vp点构成的三角形的面积为最大时,该点则为第二个桶内的IP点,如图1所示,点B与点A和点Vp构成的三角形的面积比点C或点D与点A和点Vp构成的三角形的面积大,因此点B为桶B2的IP点,每个桶选择一个IP点,得到LTTB降维后的时间序列数据。5.根据权利要求1所述的联合LTTB与时间序列局部特征的数据降维压缩方法,其特征在于:所述步骤S2,将降维后的数据制作成符合Shapelet transform算法的学习集transform算法的学习集由经过LTTB降维后的时间序列TS和这些时间序列所对应的类别标签C组成,在学习集中,每个时间序列中的每个子序列都被认为是候选Shapelets,并使用蛮力法、早放弃、容许熵剪枝方法之一进行候选Shapelets。6.根据权利要求5所述的联合LTTB与时间序列局部特征的数据降维压缩方法,其特征在于:所述步骤S2,采用蛮力法搜索寻找候选Shapelets时,包括如下内容:子序列是时间序列的一部分,一条有N个测量点的时间序列,子序列的长度范围是3

N个观测点,因...

【专利技术属性】
技术研发人员:陈柳洁聂福林傅继阳
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1