当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法技术

技术编号:42675485 阅读:23 留言:0更新日期:2024-09-10 12:27
本发明专利技术公开了一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法,步骤为:(1)对时间序列按照窗口长度和步长提取子序列;(2)对提取出的子序列经过SAX符号表示将子序列变成符号序列;(3)选择DC3后缀数组算法对符号序列进行处理,获得后缀数组;(4)使用基于索引提取匹配前缀的方法,按照原始索引顺序在后缀数组中进行匹配前缀的搜索。(5)基于编辑距离的容错匹配,设置一个基于编辑距离的容错参数,进行容错匹配,减小字符串匹配的难度,便于找到更长且完整的变长模体。

【技术实现步骤摘要】

本专利技术涉及信息处理,具体涉及时间序列模体挖掘。


技术介绍

1、模体被定义为重复的模式、频繁的趋势、或者近似重复的序列、形状、片段、子序列等。mueen给出了其对模体的定义:模体是一段长时间序列中,一对彼此最相似的时间序列子序列。时间序列模体挖掘是在不需要任何有关其位置或形状的先验信息的条件下,寻找时间序列中重复出现的未知模式。此外,时间序列模体挖掘不仅适用于一维或多维数据,同样能够适用于不同类型的序列数据,例如空间序列数据,时间序列数据以及流数据。并且时间序列模体挖掘技术在遗传学、医学、数学、音乐等诸多领域也得到应用。

2、目前大致可以将模体的定义可分为两类:k-motif和最近邻模体。

3、k-motif,给定一个时间序列t,一个子序列长度m和一个范围r,t中最重要的模体(此后称为1-motif)是子序列c1,它具有最多的非平凡匹配计数。在t中,第k个最重要的模体是子序列ck(此后称为k-motif),它具有第k多的非平凡匹配计数,并且当1≤i≤k时,d(ck,ci)>2r。

4、最近邻模体,在长度为n的时间序列t本文档来自技高网...

【技术保护点】

1.一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法,其特征在于,所述步骤(4)基于索引提取匹配前缀的具体步骤如下:

3.根据权利要求1所述的一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法,其特征在于,所述步骤(5)基于编辑距离的容错匹配的具体步骤如下:

【技术特征摘要】

1.一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法,其特征在于,所述步骤(...

【专利技术属性】
技术研发人员:王继民王涛孙家豪朱滢
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1