当前位置: 首页 > 专利查询>河海大学专利>正文

基于子序列全连接和最大团的时间序列模体发现方法技术

技术编号:20160388 阅读:32 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开一种基于子序列全连接和最大团的时间序列模体发现方法。步骤为:1.子序列全连接:使用长度为m的滑动窗口应用嵌套循环计算时间序列T中所有子序列之间的距离;2.构造子序列相似图:定义相似性阈值,小于相似性阈值的距离用1表示,其他距离值用0表示。将距离矩阵Distance Matrix转化为对应的邻接矩阵;3.寻找最大团:使用最大团搜索算法搜索通过图的邻接矩阵寻找子序列相似图中的最大团。最大团顶点对应的时间序列子序列为模体。通过本发明专利技术利用子序列全连接和最大团算法发现时间序列模体,提高了时间序列模体发现的效率,解决了已有时间序列模体发现算法无法发现多条模体的问题。

【技术实现步骤摘要】
基于子序列全连接和最大团的时间序列模体发现方法
本专利技术涉及一种基于子序列全连接和最大团的时间序列模体发现方法,涉及信息处理

技术介绍
时间序列是按时间顺序排列的、具有相等时间间隔的一系列数据的集合。时间序列无处不在,使其在各个行业获得普遍的应用。例如金融领域的证券交易数据、气象领域的气温气压数据、工业领域的用电数据、医学领域的脑电波和心电图数据等等。在时间序列数据挖掘的诸多问题中,时间序列的模式发现是一个基础性问题。时间序列中的频繁模式、异常模式、周期模式对时间序列的关联规则发现,异常检测,预测等有重要作用。时间序列的模式发现包括查找事先指定模式和预先未知的模式。查找事先指定模式的问题(即按内容查询)已有诸多解决方法。然而,查找预先未知,重复出现的模式即时间序列模体发现(也称为时间序列的序列主题发现)问题则面临更多挑战。模体发现问题对于时间序列挖掘具有重要意义,可以用于解决数据划分,海量时间序列数据库的可视化与归类,包括聚类、分类、关联规则发现等问题。现有的模体发现算法存在计算复杂,并且无法发现多条模体的缺点,提高模体发现的效率,发现更多的模体是一个重要的研究方向。
技术实现思路
专利技术目的:针对现有技术中存在的问题,本专利技术提供一种基于子序列全连接和最大团的时间序列模体发现方法,通过子序列连接,构建子序列相似图,寻找最大团三个步骤以高效地发现时间序列中的多条模体。技术方案:一种基于子序列全连接和最大团的时间序列模体发现方法,包括以下步骤:(1)子序列全连接使用长度为m的滑动窗口应用嵌套循环计算时间序列T中所有子序列之间的距离(即时间序列T的自连接),此过程使用“超快速”的MASS算法得到距离矩阵(DistanceMatrix)。该算法的“超快速”在于其先对数据进行了快速傅里叶变换,然后执行点积操作,将点积操作的结果再进行逆傅里叶变换。上述操作代替了计算复杂度较高的卷积操作。最后将逆傅里叶变换的结果用于计算基于z-归一化的欧式距离,得到距离矩阵DistanceMatrix。MASS算法的基本步骤为首先计算时间序列子序列Q和T之间的滑动点积,然后时间序列子序列Q和T的均值和方差,最后计算时间序列子序列之间Q和T的z-归一化的欧氏距离,返回时间序列子序列Q和T之间的距离值。MASS算法首先调用了SlidingDotProducts算法,SlidingDotProducts算法主要功能是计算QT[i]的值。SlidingDotProducts算法包括对两个向量的经典卷积运算,算法将采用快速傅里叶变换和逆快速傅里叶变换替代计算复杂的卷积操作,从而提高MASS算法的速度。因为MASS算法采用z-归一化的欧氏距离Dist[i]作为时间序列子序列Q与Ti,m之间的距离度量,其需要进行时间序列子序列Q与Ti,m之间的点积计算QT[i],欧氏距离Dist[i]公式如下:其中,m为子序列的长度,μQ为时间序列子序列Q的平均值,σQ为时间序列子序列Q的标准差,MT为时间序列子序列Ti,m的平均值,∑T为时间序列子序列Ti,m的标准差。Q和Ti,m在MASS算法中指代一条时间序列里的两个不存在平凡匹配的子序列,在算法中,Q作为查询序列,计算与时间序列中其他子序列之间的距离。通常情况下,计算长时间序列中每个子序列的平均值和标准差的时间复杂度为O(m)。算法使用了缓存时间序列值的累计和与累积平方和的方法,在任何阶段两个累积和向量足以计算任意长度子序列的均值和方差。与KNN相似性搜索方法不同,该算法计算的是查询序列与时间序列中所有子序列之间的距离,即时间序列T的距离分布(DistanceProfile)。(2)构建子序列相似图定义相似性阈值,小于相似性阈值的距离值用1表示,其他距离值用0表示,将距离矩阵转换为邻接矩阵。根据邻接矩阵得到图,此图称为子序列相似图。距离矩阵中存在平凡匹配的子序列的距离值设置为inf,相似性阈值eps=6,距离值小于eps时,距离元素用1表示,大于相似性阈值或为inf时用0表示,最终得到相似邻接矩阵。(3)寻找最大团使用最大团算法解决第二步中子序列相似图的最大团问题。所得最大团的顶点对应时间序列模体的实例。寻找图的最大团是一个复杂的组合优化问题,本专利技术使用的最大团算法提出一个新的目标函数(R1NdM):其中参数d≥0,假设图G的邻接矩阵为A,u为函数的局部极小值,定义相关的改进邻接矩阵为B=A+In,Md=(1+d)B-d1n×n,其中In为n阶的单位矩阵,1n×n为元素全1的n×n矩阵。目标函数的局部最小值对应图G的极大团,全局最小值对应图G的最大团。使用梯度下降算法作为迭代算法,利用Armijo准则调节步长,求解目标函数的最优解,该最优解对应图G的最大团。此算法准确率较高并且计算速度非常快。本专利技术采用上述技术方案,具有以下有益效果:本专利技术提出的基于子序列全连接和最大团的时间序列模体发现方法,相较于采用近似离散化方法的时间序列模体发现算法,所提出的算法采用原始数据,保留了时间序列中的重要信息。相较于采用聚类的时间序列模体发现算法,所提出的算法,去掉无意义的匹配,发现的模体更具有价值。相较于基于概率的时间序列模体发现算法,所提出的算法参数较少,计算简单易于理解。相较于其他基于子序列连接的时间序列模体发现算法,所提出的算法效率更高。此外,提出的算法能够在较短时间内发现多条模体,并且具有高效性、准确性和更强的可扩展性和鲁棒性。附图说明图1为距离矩阵转化为邻接矩阵;图2为基于EEG数据集各算法发现的模体对比图;图3为基于EOG数据集各算法发现的模体对比图,(a)BF算法(eps=3.4,m=145),(b)TSSJMC算法(eps=3.4,m=145);图4为基于ECG数据集各算法发现的模体对比图,(a)BF算法(eps=16.5,m=150),(b)TSSJMC算法(eps=16.5,m=150);图5为基于ECG数据集各算法发现的模体对比图,(a)BF算法(eps=16,m=250),(b)TSSJMC算法(eps=16,m=250);图6为三种算法的执行时间对比图(EEG:PAA_size=30,α=6,repeat=60;EOG:PAA_size=25,α=5,repeat=60;ECG:PAA_size=20,α=3,repeat=60;InsectBehavior:PAA_size=30,α=5,repeat=60);图7为基于EEG数据集各算法运行时间对比图;图8为基于EOG数据集各算法运行时间对比图;图9为基于ECG数据集各算法运行时间对比图;图10为基于InsectBehavior数据集各算法运行对比图;图11为不同长度的EEG数据集各算法运行时间对比图;图12为不同长度的EOG数据集各算法运行时间对比图;图13为不同噪声水平发现的模体数量对比图;图14为不同噪声水平算法的运行时间对比图;图15为方法流程图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。一种基于子序列全连接和最大团的时间序列模体发现方法,包括以下步骤:本文档来自技高网...

【技术保护点】
1.一种基于子序列全连接和最大团的时间序列模体发现方法,其特征在于,包括以下步骤:(1)子序列全连接使用长度为m的滑动窗口应用嵌套循环计算时间序列T中所有子序列之间的距离;(2)构建子序列相似图定义相似性阈值,小于相似性阈值的距离值用1表示,其他距离值用0表示,将距离矩阵转换为邻接矩阵;根据邻接矩阵得到图,此图称为子序列相似图;(3)寻找最大团使用最大团算法解决子序列相似图的最大团问题;所得最大团的顶点对应时间序列模体的实例。

【技术特征摘要】
1.一种基于子序列全连接和最大团的时间序列模体发现方法,其特征在于,包括以下步骤:(1)子序列全连接使用长度为m的滑动窗口应用嵌套循环计算时间序列T中所有子序列之间的距离;(2)构建子序列相似图定义相似性阈值,小于相似性阈值的距离值用1表示,其他距离值用0表示,将距离矩阵转换为邻接矩阵;根据邻接矩阵得到图,此图称为子序列相似图;(3)寻找最大团使用最大团算法解决子序列相似图的最大团问题;所得最大团的顶点对应时间序列模体的实例。2.根据权利要求1所述的基于子序列全连接和最大团的时间序列模体发现方法,其特征在于,所述步骤(1)中使用“超快速”的MASS算法得到距离矩阵;该算法的“超快速”在于其先对数据进行了快速傅里叶变换,然后执行点积操作,将点积操作结果再进行逆傅里叶变换,最后将逆傅里叶变换后的结果用于计算基于z-归一化的欧式距离,得到距离矩阵DistanceMatrix。3.根据权利要求2所述的基于子序列全连接和最大团的时间序列模体发现方法,其特征在于,所述步骤(1)中欧氏距离Dist[i]公式如下:其中...

【专利技术属性】
技术研发人员:王继民朱跃龙朱晓晓张鹏程
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1