一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法技术

技术编号：40607672 阅读：6 留言：0更新日期：2024-03-12 22:14

本发明专利技术提供了一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法，该方法主要对时间序列进行值域和时间域上进行分桶操作，依据每桶数据的分布概率制定合适的采样间隔，并对数据进行抽取，利用DTW算法计算原始序列与抽取序列的相似性并作为优化的依据，对分桶策略的参数进行优化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及时间序列数据分析领域，尤其涉及一种时间序列抽取方法。

技术介绍

1、随着技术的发展以及国家对地质灾害监测行业的支持，用于地灾监测的设备数量处于逐年递增状态，其监测数据也处于一种激增的状态，大量的数据增加了对地灾监测状态的研判，提高了作业效率。与此同时，也带来了一定的问题，其中最主要的一方面就是数据过多，主要体现以下几点：1)过多的数据，需要更大的存储空间，这意味着需要增加存储设施的成本。2)过多的数据并不一定能够带来更多的数据信息。3)过多的数据会导致后续处理算法、预警模型等运行时间长。因此，有必要对现有数据进行一定的抽取，降低数据的数量。

2、常规的对数据抽取的方法较少，使用最多的一般是间隔采样，这种方法用在地质灾害监测数据有一定的作用，但并不是最优的，主要原因包括：1)从数据频率上看，地质灾害监测数据是一种高频采样和低频采样两种极端数据的组合，一般的，当灾害体未发生形变或者处于蠕变阶段，其数据是一种极低频采样数据，这种数据一般是监测设备通过周期采集(多数情况下是1小时1组数)获得，长期数据呈现无趋势或者是极平缓趋势变化。当灾害体发生快速形变时，其数据是一种高频采样数据，这种数据一般是监测设备通过触发采集或者加报采集获得，短期数据呈现陡峭趋势变化。很难采用一种固定的间隔进行数据抽取。2)从数据形态上看，地质灾害监测数据包含平稳状态和形变状态。其中平稳状态一般是监测设备及灾害体未发生任务物理变化的状态，这种数据所提供的监测设备及灾害体的信息有限，且并不需要十分密集，比如1小时1000组数据和1小时100

技术实现思路

1、针对现有技术中存在的技术问题，本专利技术提供了一种基于数据分桶采样间隔及dtw优化的时间序列抽取方法，能够对地质灾害监测数据进行有效抽取。

2、本专利技术提供的基于数据分桶采样间隔及dtw优化的时间序列抽取方法，包括以下步骤：

3、s01：获取地灾监测时间序列数据，对该数据进行预处理，获得原始数据；

4、s02：对原始数据进行分桶操作；

5、s03：依据默认参数或调整后的参数，计算每桶数据的采样间隔；

6、s04：根据每桶数据的采样间隔，对原始数据进行抽取，获得抽取数据；

7、s05：利用dtw算法计算原始数据和抽取数据的相似性；

8、s06：根据相似性和阈值的大小关系，调整参数，重复s03-s06；

9、s07：满足阈值的条件下，获取最佳抽取数据及抽取参数。

10、进一步地，其特征在于，s01步骤中，

11、所述时间序列数据为带有时间戳的单变量序列，一个时间戳对应的一个数据称为一个数据元素；

12、所述对数据进行预处理，包括数据滤波及异常处理，处理后的数据称为原始数据；原始数据的表示形式为：

13、x＝{x1,x2,...,xt,...,xn}

14、其中，x表示预处理后的时间序列，n表示该时间序列的长度，xt表示t时刻的监测数据，xmin表示序列中的最小值。

15、进一步地，其特征在于，s02步骤中，

16、所述对原始数据进行分桶操作，其具体方法为：

17、首先，在原始数据值域上进行分段划分，获得每个数据元素在值域上的分段索引vindex：

18、vindex＝取整((xi-xmin)/th)

19、其中，th为噪声容限，对于vindex，是一系列常数分段序列，不同常数段的变化位置称为分割值域；

20、然后将值域分割映射到时域上，在时域上再次将数据进行分割，分割后的数据称之为数据分桶；将数据分桶进行编号，获得时域上的分桶索引tindex，且tmax为最大分桶索引，并获得每个分桶索引的数据；

21、最后对每个分桶数据进行数据元素索引重排，每桶数据数量不同，定义为ntindex，即可获得数量数列[n1,n2,...,ntmax]，且nmax为最大数量，每桶数据从1-ntindex进行编号。

22、进一步地，其特征在于，s03步骤中，

23、所述默认参数或调整后的参数，包括每桶数量预设阈值m，调整系数k；

24、所述计算每桶数据的采样间隔，其具体方法为：

25、首先，根据参数m保留数据：

26、

27、对于分桶tindex，处理后获得抽取间隔entindex：

28、entindex＝k*(10^(loge((ntindex+1)/umax))-1)

29、其中umax是所有ntindex经过loge((ntindex+1)处理后的最大值，然后对entindex重新取整处理：

30、

31、进一步地，其特征在于，s04步骤中，

32、所述根据抽取间隔entindex对数据进行抽取，其具体方法为：

33、对于每一个分桶数据分桶tindex，如果entindex＝0，则不进行数据抽取，保留全部数据；

34、如果entindex≠0，使用entindex进行抽取，每隔entindex保留一个数据；

35、最终将保留的数据形成新的数据序列：

36、y＝{y1,y2,...,yt,...,yl}

37、其中，l为抽取后的时间序列的长度。

38、进一步地，其特征在于，s05步骤中，

39、所使用的dtw算法为常规的算法，计算相似距离：

40、g(xi,yj)＝d(xi,yj)+min{g(xi-1,yj),g(xi-1,yj-1),g(xi,yj-1)}

41、g(xi,yj)表示当前状态的相似距离总和，d(xi,yj)表示xi,yj的距离，g(xi-1,yj),g(xi-1,yj-1),g(xi,yj-1)表示上一三种状态的相似距离总和。

42、进一步地，其特征在于，s05步骤中，

43、所使用的dtw算法为基于step_pattern或window_type方式改进的算法，可根据实际使用场景调整。

44、进一步地，其特征在于，s06步骤中，

45、所述s06阈值，设置为tg，调整参数为k，调整方法为：

46、如果计算的相似性距离小于tg，适当增大k，重复s03-s06，直到计算的相似性距离接近tg，但不超过tg；

47、如果计算的相似性距离不小于tg，适当减小k，重复s03-s06，直到计算的相似性距离接近tg，但不超过tg。

48、进一步地，其特征在于，s07步骤中，

4本文档来自技高网...

【技术保护点】

1.一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法，其特征在于，S01步骤中，

3.根据权利要求2所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法，其特征在于，S02步骤中，

4.根据权利要求3所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法，其特征在于，S03步骤中，

5.根据权利要求4所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法，其特征在于，S04步骤中，

6.根据权利要求5所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法，其特征在于，S05步骤中，

7.根据权利要求5所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法，其特征在于，S05步骤中，

8.根据权利要求6或7所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法，其特征在于，S06步骤中，

9.根据权利要求8所述的一种基于数据分桶采样间隔及

...

【技术特征摘要】

1.一种基于数据分桶采样间隔及dtw优化的时间序列抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于数据分桶采样间隔及dtw优化的时间序列抽取方法，其特征在于，s01步骤中，

3.根据权利要求2所述的一种基于数据分桶采样间隔及dtw优化的时间序列抽取方法，其特征在于，s02步骤中，

4.根据权利要求3所述的一种基于数据分桶采样间隔及dtw优化的时间序列抽取方法，其特征在于，s03步骤中，

5.根据权利要求4所述的一种基于数据分桶采样间隔及dtw优化的时间...

【专利技术属性】
技术研发人员：孙贵鑫，刘天霸，张暄翊，王菲菲，詹森，
申请(专利权)人：航天科工惯性技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人