System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法技术_技高网

一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法技术

技术编号:40607672 阅读:6 留言:0更新日期:2024-03-12 22:14
本发明专利技术提供了一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法,该方法主要对时间序列进行值域和时间域上进行分桶操作,依据每桶数据的分布概率制定合适的采样间隔,并对数据进行抽取,利用DTW算法计算原始序列与抽取序列的相似性并作为优化的依据,对分桶策略的参数进行优化。

【技术实现步骤摘要】

本专利技术涉及时间序列数据分析领域,尤其涉及一种时间序列抽取方法。


技术介绍

1、随着技术的发展以及国家对地质灾害监测行业的支持,用于地灾监测的设备数量处于逐年递增状态,其监测数据也处于一种激增的状态,大量的数据增加了对地灾监测状态的研判,提高了作业效率。与此同时,也带来了一定的问题,其中最主要的一方面就是数据过多,主要体现以下几点:1)过多的数据,需要更大的存储空间,这意味着需要增加存储设施的成本。2)过多的数据并不一定能够带来更多的数据信息。3)过多的数据会导致后续处理算法、预警模型等运行时间长。因此,有必要对现有数据进行一定的抽取,降低数据的数量。

2、常规的对数据抽取的方法较少,使用最多的一般是间隔采样,这种方法用在地质灾害监测数据有一定的作用,但并不是最优的,主要原因包括:1)从数据频率上看,地质灾害监测数据是一种高频采样和低频采样两种极端数据的组合,一般的,当灾害体未发生形变或者处于蠕变阶段,其数据是一种极低频采样数据,这种数据一般是监测设备通过周期采集(多数情况下是1小时1组数)获得,长期数据呈现无趋势或者是极平缓趋势变化。当灾害体发生快速形变时,其数据是一种高频采样数据,这种数据一般是监测设备通过触发采集或者加报采集获得,短期数据呈现陡峭趋势变化。很难采用一种固定的间隔进行数据抽取。2)从数据形态上看,地质灾害监测数据包含平稳状态和形变状态。其中平稳状态一般是监测设备及灾害体未发生任务物理变化的状态,这种数据所提供的监测设备及灾害体的信息有限,且并不需要十分密集,比如1小时1000组数据和1小时100组数据都足以表征监测设备及灾害体的状态。形变状态一般是监测设备及灾害体发生形变的状态,这种数据细节信息较多,数据前后变化不规律(与灾害体固有特征及外部环境有很大关系),密集的数据是十分有益的。因此,平稳状态的数据更应该被抽取,形变状态的数据更应该被保留。


技术实现思路

1、针对现有技术中存在的技术问题,本专利技术提供了一种基于数据分桶采样间隔及dtw优化的时间序列抽取方法,能够对地质灾害监测数据进行有效抽取。

2、本专利技术提供的基于数据分桶采样间隔及dtw优化的时间序列抽取方法,包括以下步骤:

3、s01:获取地灾监测时间序列数据,对该数据进行预处理,获得原始数据;

4、s02:对原始数据进行分桶操作;

5、s03:依据默认参数或调整后的参数,计算每桶数据的采样间隔;

6、s04:根据每桶数据的采样间隔,对原始数据进行抽取,获得抽取数据;

7、s05:利用dtw算法计算原始数据和抽取数据的相似性;

8、s06:根据相似性和阈值的大小关系,调整参数,重复s03-s06;

9、s07:满足阈值的条件下,获取最佳抽取数据及抽取参数。

10、进一步地,其特征在于,s01步骤中,

11、所述时间序列数据为带有时间戳的单变量序列,一个时间戳对应的一个数据称为一个数据元素;

12、所述对数据进行预处理,包括数据滤波及异常处理,处理后的数据称为原始数据;原始数据的表示形式为:

13、x={x1,x2,...,xt,...,xn}

14、其中,x表示预处理后的时间序列,n表示该时间序列的长度,xt表示t时刻的监测数据,xmin表示序列中的最小值。

15、进一步地,其特征在于,s02步骤中,

16、所述对原始数据进行分桶操作,其具体方法为:

17、首先,在原始数据值域上进行分段划分,获得每个数据元素在值域上的分段索引vindex:

18、vindex=取整((xi-xmin)/th)

19、其中,th为噪声容限,对于vindex,是一系列常数分段序列,不同常数段的变化位置称为分割值域;

20、然后将值域分割映射到时域上,在时域上再次将数据进行分割,分割后的数据称之为数据分桶;将数据分桶进行编号,获得时域上的分桶索引tindex,且tmax为最大分桶索引,并获得每个分桶索引的数据;

21、最后对每个分桶数据进行数据元素索引重排,每桶数据数量不同,定义为ntindex,即可获得数量数列[n1,n2,...,ntmax],且nmax为最大数量,每桶数据从1-ntindex进行编号。

22、进一步地,其特征在于,s03步骤中,

23、所述默认参数或调整后的参数,包括每桶数量预设阈值m,调整系数k;

24、所述计算每桶数据的采样间隔,其具体方法为:

25、首先,根据参数m保留数据:

26、

27、对于分桶tindex,处理后获得抽取间隔entindex:

28、entindex=k*(10^(loge((ntindex+1)/umax))-1)

29、其中umax是所有ntindex经过loge((ntindex+1)处理后的最大值,然后对entindex重新取整处理:

30、

31、进一步地,其特征在于,s04步骤中,

32、所述根据抽取间隔entindex对数据进行抽取,其具体方法为:

33、对于每一个分桶数据分桶tindex,如果entindex=0,则不进行数据抽取,保留全部数据;

34、如果entindex≠0,使用entindex进行抽取,每隔entindex保留一个数据;

35、最终将保留的数据形成新的数据序列:

36、y={y1,y2,...,yt,...,yl}

37、其中,l为抽取后的时间序列的长度。

38、进一步地,其特征在于,s05步骤中,

39、所使用的dtw算法为常规的算法,计算相似距离:

40、g(xi,yj)=d(xi,yj)+min{g(xi-1,yj),g(xi-1,yj-1),g(xi,yj-1)}

41、g(xi,yj)表示当前状态的相似距离总和,d(xi,yj)表示xi,yj的距离,g(xi-1,yj),g(xi-1,yj-1),g(xi,yj-1)表示上一三种状态的相似距离总和。

42、进一步地,其特征在于,s05步骤中,

43、所使用的dtw算法为基于step_pattern或window_type方式改进的算法,可根据实际使用场景调整。

44、进一步地,其特征在于,s06步骤中,

45、所述s06阈值,设置为tg,调整参数为k,调整方法为:

46、如果计算的相似性距离小于tg,适当增大k,重复s03-s06,直到计算的相似性距离接近tg,但不超过tg;

47、如果计算的相似性距离不小于tg,适当减小k,重复s03-s06,直到计算的相似性距离接近tg,但不超过tg。

48、进一步地,其特征在于,s07步骤中,

4本文档来自技高网...

【技术保护点】

1.一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法,其特征在于,S01步骤中,

3.根据权利要求2所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法,其特征在于,S02步骤中,

4.根据权利要求3所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法,其特征在于,S03步骤中,

5.根据权利要求4所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法,其特征在于,S04步骤中,

6.根据权利要求5所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法,其特征在于,S05步骤中,

7.根据权利要求5所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法,其特征在于,S05步骤中,

8.根据权利要求6或7所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法,其特征在于,S06步骤中,

9.根据权利要求8所述的一种基于数据分桶采样间隔及DTW优化的时间序列抽取方法,其特征在于,S07步骤中,

...

【技术特征摘要】

1.一种基于数据分桶采样间隔及dtw优化的时间序列抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于数据分桶采样间隔及dtw优化的时间序列抽取方法,其特征在于,s01步骤中,

3.根据权利要求2所述的一种基于数据分桶采样间隔及dtw优化的时间序列抽取方法,其特征在于,s02步骤中,

4.根据权利要求3所述的一种基于数据分桶采样间隔及dtw优化的时间序列抽取方法,其特征在于,s03步骤中,

5.根据权利要求4所述的一种基于数据分桶采样间隔及dtw优化的时间...

【专利技术属性】
技术研发人员:孙贵鑫刘天霸张暄翊王菲菲詹森
申请(专利权)人:航天科工惯性技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1