基于距离的面向时间序列分类的数据转换方法和系统技术方案

技术编号:34468363 阅读:19 留言:0更新日期:2022-08-10 08:41
本发明专利技术涉及时间序列数据挖掘技术领域,具体涉及基于距离的面向时间序列分类的数据转换方法和系统,其中方法包括:定义时间序列的分辨率,在对应分辨率下确定时间窗口的大小,然后根据滑动窗口将时间序列划分为一系列子序列,计算对应滑动窗口每一个窗口位置下子序列与其他时间序列的子序列之间的平均距离;对平均距离进行升序排序,根据分裂间隙计算其信息增益;根据不同滑动窗口位置的信息增益,选取最大的信息增益值作为对应滑动窗口位置下类别的判别度量,对各滑动窗口进行排名,根据滑动窗口的排名,选择删除信息增益最小的滑动窗口子序列实现转换操作,得到转换后的时间序列。根据本发明专利技术的方法,可以取得比其他算法更好的分类结果。好的分类结果。好的分类结果。

【技术实现步骤摘要】
基于距离的面向时间序列分类的数据转换方法和系统


[0001]本专利技术涉及时间序列数据挖掘
,尤其涉及一种基于距离的面向时间序列分类的数据转换方法和系统。

技术介绍

[0002]时间序列分类(TSC)从时间序列(可能是多变量)中预测离散目标变量的问题。TSC是机器学习的重要领域,在过去几十年中发展非常迅速。许多领域会产生或用到大量的时间序列数据,包括医疗数据、地震监测、昆虫分类预测维护等。
[0003]分类问题通常依赖于相似性或非相似性度量,时间序列分类也是如此。在过去十年中,时间序列分类研究中最精确和最稳健的方法是最近邻算法。时间序列相似性的主要研究如下:
[0004]频域相似性。一个简单的例子是基于距离度量的简单最近邻算法(NN)。基本度量包括欧几里得距离、动态时间规整(DTW)、基于导数的动态时间规整(DDTW)、加权动态时间规整(WDTW)、基于编辑距离的动态时间规整(TWE)等。Keogh首先将基于动态时间规整距离的精确索引应用于时间序列挖掘中。基于集成的方法是使用单个时间序列分类方法的集成。Elastic Ensemble(EE)是具有代表性的算法之一。它是11个NN分类器通过学习不同的时间序列序列度量(它们的参数作相应地调整)的集成。
[0005]形状相似性。Eamonn Keogh指出Matrix Profile是过去十年时间序列数据挖掘的最佳方法。时间序列shapelets是时间序列中最具辨别力的子序列。Ye等人首先提出了基于shapelets的分类算法,它通过递归找到最佳shapelets并建立决策树。Mueen等人使用逻辑shapelets来构建决策树,因为单个shapelets缺乏可解释性。
[0006]变化相似性。两种常用方法可以测量变化中的相似性:隐马尔可夫模型(HMM)和自回归移动平均(ARMAR)。
[0007]传统的基于距离的KNN分类算法,没有对原时间序列做任何处理,完全依赖于距离度量进行分类处理。专利技术人对时间序列分类的相关研究进行了细致的比较。得出以下结论:时间序列分类技术可分为以下几种,基于转换的集成方法(COTE)、Elastic ensembles(EE)、Shapelet transform(ST)。COTE比较特殊,它包含了另外两个分类器Elastic ensembles和Shapelet transform作为子分类器。COTE运行的时间复杂度受限于Shapelet transform和Elastic ensembles之间,Elastic ensembles和COTE这两种方法的时间复杂度都比较高。
[0008]Elastic ensembles方法在原有时间序列基础上使用不同的距离度量方法进行处理,在分类准确率上有一定的提升,但其时间复杂度较高。Shapelet转换方法,选择最具有代表性的子序列,然后计算每条时间序列与代表性子序列的距离,将距离值作为特征,进行分类处理。这种转换方式提取了时间序列代表性特征。这种选择最具有代表性子序列的方法,有可能造成时间序列重要信息的丢失,无法保证保留原有数据的所有有效信息。

技术实现思路

[0009]本专利技术的目的在于解决
技术介绍
中的至少一个技术问题,提供一种基于距离的面向时间序列分类的数据转换方法和系统。
[0010]为实现上述目的,本专利技术提供一种基于距离的面向时间序列分类的数据转换方法,其特征在于,包括:
[0011]定义时间序列的分辨率,在对应分辨率下确定时间窗口的大小,然后根据所述时间窗口的大小和滑动步长产生的滑动窗口将时间序列划分为一系列子序列,并计算对应滑动窗口每一个窗口位置下子序列与其他时间序列的子序列之间的平均距离;
[0012]对所述平均距离进行升序排序,根据分裂间隙计算其信息增益;
[0013]根据不同滑动窗口位置的信息增益,选取最大的信息增益值作为对应滑动窗口位置下类别的判别度量,对各滑动窗口进行排名,根据滑动窗口的排名,选择删除信息增益最小的滑动窗口子序列实现对原时间序列做转换操作,得到转换后的时间序列。
[0014]根据本专利技术的一个方面,分辨率定义如下,所述滑动窗口的大小为w,基数r=0.0125,其中,所述滑动窗口的大小w为r的偶数倍,且为2

16之间的偶数倍。
[0015]根据本专利技术的一个方面,定义时间序列的分辨率,在对应分辨率下确定时间窗口的大小,然后根据所述时间窗口的大小和滑动步长产生的滑动窗口将时间序列划分为一系列子序列,并计算对应滑动窗口每一个窗口位置下子序列与其他时间序列的子序列之间的平均距离为:
[0016]根据滑动窗口的参数配置,将原始时间序列进行划分,包括:
[0017]使用p表示窗口位置,根据窗口划分参数确定窗口的开始位置和结束位置;
[0018]截取开始位置到结束位置之间的序列为子序列,并对子序列进行归一化处理;
[0019]对每一条时间序列数据进行以上处理,得到每一个时间序列对应在窗口位置p处的子序列;
[0020]对于位置p下所有子序列与其他实例之间的平均距离可以表示为其中分别表示第一条、第二条
···
第m条时间序列在窗口位置p处子序列与其他实例之间的平均距离;
[0021]对每一个窗口位置进行以上处理,最终得到每个窗口位置下子序列与其他序列之间的平均距离的集合AD。
[0022]根据本专利技术的一个方面,对所述平均距离进行升序排序,根据分裂间隙计算其信息增益为:
[0023]根据得到的每个窗口位置下子序列与其他时间序列的子序列之间的平均距离,对每个窗口位置下每个子序列与其他时间序列的子序列之间的一系列平均距离进行升序排列,对于距离升序排列,每个距离为分裂间隙,将时间序列的距离分成两个部分,然后根据信息增益的计算方法计算该分裂间隙下的信息增益。
[0024]根据本专利技术的一个方面,根据不同滑动窗口位置的信息增益,选取最大的信息增益值作为对应滑动窗口位置下类别的判别度量,对各滑动窗口进行排名,根据滑动窗口的排名,选择删除信息增益最小的滑动窗口子序列实现对原时间序列做转换操作,得到转换后的时间序列为:
[0025]根据设置的分辨率,计算对应分辨率下窗口的大小,以及所有子序列在对应窗口
位置下的平均距离;然后根据分裂间隙使用信息增益度量该窗口尺度下不同位置对类别划分的影响程度,当计算所有分裂间隙下的信息增益后,选择信息增益最大的子序列位置作为该窗口尺度下的代表子序列,对不同位置下信息增益值对窗口位置进行排序,在原时间序列基础上删除信息增益最小的窗口对应的子序列,实现对原时间序列作数据转换操作。
[0026]为实现上述专利技术目的,本专利技术还提供一种基于距离的面向时间序列分类的数据转换系统,包括:
[0027]平均距离计算模块,定义时间序列的分辨率,在对应分辨率下确定时间窗口的大小,然后根据所述时间窗口的大小和滑动步长产生的滑动窗口将时间序列划分为一系列子序列,并计算对应滑动窗本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于距离的面向时间序列分类的数据转换方法,其特征在于,包括:定义时间序列的分辨率,在对应分辨率下确定时间窗口的大小,然后根据所述时间窗口的大小和滑动步长产生的滑动窗口将时间序列划分为一系列子序列,并计算对应滑动窗口每一个窗口位置下子序列与其他时间序列的子序列之间的平均距离;对所述平均距离进行升序排序,根据分裂间隙计算其信息增益;根据不同滑动窗口位置的信息增益,选取最大的信息增益值作为对应滑动窗口位置下类别的判别度量,对各滑动窗口进行排名,根据滑动窗口的排名,选择删除信息增益最小的滑动窗口子序列实现对原时间序列做转换操作,得到转换后的时间序列。2.根据权利要求1所述的基于距离的面向时间序列分类的数据转换方法,其特征在于,分辨率定义如下,所述滑动窗口的大小为w,基数r=0.0125,其中,所述滑动窗口的大小w为r的偶数倍,且为2

16之间的偶数倍。3.根据权利要求1所述的基于距离的面向时间序列分类的数据转换方法,其特征在于,定义时间序列的分辨率,在对应分辨率下确定时间窗口的大小,然后根据所述时间窗口的大小和滑动步长产生的滑动窗口将时间序列划分为一系列子序列,并计算对应滑动窗口每一个窗口位置下子序列与其他时间序列的子序列之间的平均距离为:根据滑动窗口的参数配置,将原始时间序列进行划分,包括:使用p表示窗口位置,根据窗口划分参数确定窗口的开始位置和结束位置;截取开始位置到结束位置之间的序列为子序列,并对子序列进行归一化处理;对每一条时间序列数据进行以上处理,得到每一个时间序列对应在窗口位置p处的子序列;对于位置p下所有子序列与其他实例之间的平均距离可以表示为其中分别表示第一条、第二条
···
第m条时间序列在窗口位置p处子序列与其他实例之间的平均距离;对每一个窗口位置进行以上处理,最终得到每个窗口位置下子序列与其他序列之间的平均距离的集合AD。4.根据权利要求1所述的基于距离的面向时间序列分类的数据转换方法,其特征在于,对所述平均距离进行升序排序,根据分裂间隙计算其信息增益为:根据得到的每个窗口位置下子序列与其他时间序列的子序列之间的平均距离,对每个窗口位置下每个子序列与其他时间序列的子序...

【专利技术属性】
技术研发人员:李晖王可
申请(专利权)人:贵州优联博睿科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1