System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于自适应数据摘要的序列匹配方法组成比例_技高网

一种基于自适应数据摘要的序列匹配方法组成比例

技术编号:40553948 阅读:7 留言:0更新日期:2024-03-05 19:14
一种基于自适应数据摘要的序列匹配方法,它属于时间序列数据匹配技术领域。本发明专利技术解决了采用现有方法计算出的摘要有效性差以及难以应用于序列匹配的问题。本发明专利技术方法为:步骤一、读取时间序列数据集,初始化分段方案和根节点;步骤二、将时间序列插入到叶子节点;步骤三、根据初始分段方案和插入叶子节点的时间序列数据生成新的分段方案;步骤四、根据新方案的分段结果生成叶子节点对应的时间序列的摘要并离散化;步骤五、判断是否存在插入时间序列数量超过阈值的叶子节点,若存在,则执行步骤六、若不存在,则执行步骤七;步骤六、对叶子节点进行分裂;步骤七、从索引二叉树根节点进行递归搜索,完成序列匹配。本发明专利技术可以应用于时间序列匹配。

【技术实现步骤摘要】

本专利技术属于时间序列数据匹配,具体涉及一种基于自适应数据摘要的序列匹配方法


技术介绍

1、时间序列数据(以下简称时序数据)是按照一定的时间顺序排列的数据集合,通常用于分析时间相关的现象和趋势。它既可以是一维数据,也可以是多维数据。时序数据的分析可以帮助我们揭示数据中存在的模式、趋势和周期性。通过对时序数据的分析和建模,我们可以提取有用的信息,做出合理的决策和预测,为各行业提供更好的解决方案和决策支持。

2、序列匹配算法在模式发现、异常检测和金融分析等场景中有广泛的应用(cai z,he z.trading private range counting over big iot data[c]//2019ieee 39thinternational conference on distributed computing systems(icdcs).ieee,2019.doi:10.1109/icdcs.2019.00023.)。通过序列匹配可以找到同一类数据,再对找到的同类数据进行进一步的分析和研究,同时时序数据摘要方法被广泛应用于序列匹配问题。由于序列通常过长,无法直接通过传统数据结构进行有效的索引。因此,所有最先进的算法都利用摘要方法来压缩序列,并依赖于摘要的下界特性来执行查询。

3、目前存在着若干种序列数据摘要方法,包括离散傅里叶变换(chan k,fuw.efficient time series matching by wavelets[c]//proceedings 15thinternational conference on data engineering(cat.no.99cb36337).ieee,1999.doi:10.1109/icde.1999.754915.)、分段聚合近似(keogh e,chakrabarti k,pazzani m,etal.dimensionality reduction for fast similarity search in large time seriesdatabases[j].knowledge and information systems,2001,3(3):263-286.doi:10.1007/pl00011669.)、离散余弦变换(korn f,jagadish h v,faloutsos c.efficientlysupporting ad hoc queries in large datasets of time sequences[j].acm sigmodrecord,1997.doi:10.1145/253262.253332.)、扩展分段常数近似(wang y,wang p,pei j,etal.a data-adaptive and dynamic segmentation index for whole matching ontime series[j].proceedings of the vldb endowment,2013,6(10):793-804.doi:10.14778/2536206.2536208.)、分段常数近似(keogh e,chakrabarti k,pazzani m,etal.locally adaptive dimensionality reduction for indexing large time seriesdatabases[j].proc.ofacmsigmod intl conf.on management of data,2001.doi:10.1145/375663.375680.)等。实验结果显示,这些摘要方法的有效性并没有表现出明显的差异。其中,离散傅里叶变换、分段聚合近似和离散余弦变换这三种方法的摘要计算过程与序列集合的数据分布完全无关。比如,传统的分段聚合近似方法将序列均匀地分割成等长的片段,并使用这些片段的均值作为摘要结果,在此划分过程中,分段聚合近似方法并未充分考虑到时序数据本身的特征,导致在某些情况下数据摘要的有效性不高。而扩展分段常数近似方法虽然在构建索引的过程中考虑了数据分布,但这并没有提升数据摘要本身的有效性。分段常数近似方法虽然尝试利用序列数据的特征,但分段常数近似方法需要为每个序列单独提供不同的分段方案,即对于数据集合中的每条序列,分段常数近似方法都使用了不同的数据降维方法。这带来了两个问题:首先,分段常数近似方法需要大量的额外信息用于为每条序列记录其独特的摘要计算方法,严重影响了分段常数近似方法的摘要有效性,事实上,分段常数近似方法作为摘要方法的有效性与完全不考虑数据特征的方法相比几乎没有区别;其次,采用分段常数近似方法生成的数据摘要不能有效地提供一个可以用来搜索的低维空间,所以难以应用于序列匹配。

4、综上所述,采用现有方法计算出的摘要有效性差以及计算出的摘要难以应用于序列匹配,因此,提出一种新的摘要计算方法是十分必要的。


技术实现思路

1、本专利技术的目的是为解决采用现有方法计算出的摘要有效性差以及计算出的摘要难以应用于序列匹配的问题,而提出了一种基于自适应数据摘要的序列匹配方法。

2、本专利技术为解决上述技术问题所采取的技术方案是:

3、一种基于自适应数据摘要的序列匹配方法,所述方法具体包括以下步骤:

4、步骤一、读取时间序列数据集其中,n是时间序列的个数,m是每条时间序列的长度,是实数;

5、设定将每条序列数据划分的段数为k,对分段方案和索引二叉树的根节点进行初始化;

6、步骤二、将时间序列数据集ts中的时间序列数据依次插入到对应的叶子节点,并将插入的时间序列数据存储到叶子节点对应的磁盘块中;

7、步骤三、根据初始的分段方案和插入叶子节点的全部时间序列数据生成新的分段方案;再根据新的分段方案对插入叶子节点的全部时间序列数据进行分段;

8、步骤四、根据步骤三的分段结果生成叶子节点对应的每个时间序列的摘要,再对生成的摘要进行离散化;并将离散化后的摘要放置在摘要表中;

9、步骤五、判断是否存在插入时间序列数量超过阈值的叶子节点,若存在,则执行步骤六、若不存在,则执行步骤七;

10、步骤六、对插入时间序列数量超过阈值的一个叶子节点,将该叶子节点分裂为左节点和右节点,并将插入该叶子节点的时间序列平均分配到左节点和右节点中,将分裂后得到的左节点和右节点作为新的叶子节点;

11、再对新的叶子节点返回执行步骤三;

12、步骤七、从索引二叉树根节点进行递归搜索,搜索过程中根据摘要计算以每个中间节点为根的子树和查询序列的距离下界;

13、所述查询序列为运动传感器测量的时间序列数据;

14、若以某个中间节点为根的子树和查询序列的距离下界大于阈值,则对以该中间节点为根的子树进行剪枝;

15、若以某个中间节点为根的子树和查询序列的距离下界小于等于阈值,则读取存储在该中本文档来自技高网...

【技术保护点】

1.一种基于自适应数据摘要的序列匹配方法,其特征在于,所述方法具体包括以下步骤:

2.根据权利要求1所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述步骤二中的叶子节点通过对索引二叉树进行前序遍历获得。

3.根据权利要求2所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述步骤三的具体过程为:

4.根据权利要求3所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述步骤三一中的初步分段方案为:

5.根据权利要求4所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述步骤三二中的条件为:列置换之后当前叶子节点的有效性函数值与列置换之前当前叶子节点的有效性函数值的差大于0。

6.根据权利要求5所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述有效性函数为:

7.根据权利要求6所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述列置换之后当前叶子节点的有效性函数值与列置换之前当前叶子节点的有效性函数值的差为:

8.根据权利要求7所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述步骤四中,生成摘要采用的是FPAA方法,具体为:

9.根据权利要求8所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述对生成的摘要进行离散化,具体为:

10.根据权利要求9所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述将插入该叶子节点的时间序列平均分配到左节点和右节点中,具体为:

...

【技术特征摘要】

1.一种基于自适应数据摘要的序列匹配方法,其特征在于,所述方法具体包括以下步骤:

2.根据权利要求1所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述步骤二中的叶子节点通过对索引二叉树进行前序遍历获得。

3.根据权利要求2所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述步骤三的具体过程为:

4.根据权利要求3所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述步骤三一中的初步分段方案为:

5.根据权利要求4所述的一种基于自适应数据摘要的序列匹配方法,其特征在于,所述步骤三二中的条件为:列置换之后当前叶子节点的有效性函数值与列置换之前当前叶子节点的有效性函数值的差大于0。

6.根据权...

【专利技术属性】
技术研发人员:巢泽敏李梦涵祝苑王宏志
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1