当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于数据特征的时间序列流数据快速搜索方法技术

技术编号:20329180 阅读:38 留言:0更新日期:2019-02-13 05:46
本发明专利技术涉及一种基于数据特征的时间序列流数据快速搜索方法。包括:S1,参数预设:距离阈值DT;S2,对查询序列Q进行CSTP分割,并进行多级局部特征表示;S3,对时间序列流数据以滑动窗口的方式进行数据扫描,将滑动窗口内的子序列W进行多级局部特征表示;S4,对查询序列Q和窗口子序列W进行下界距离计算,若下界距离大于距离阈值DT,则忽略该片段,窗口继续滑动,否则,计算查询序列Q和窗口子序列W的实际距离,若实际距离大于距离阈值DT,则判定为不相似,否则,则判定为相似。本发明专利技术满足了时间序列流数据处理的一遍式扫描要求和实时响应要求。在保证搜索结果准确的前提下,减少了计算代价,节省了搜索计算时间。

【技术实现步骤摘要】
一种基于数据特征的时间序列流数据快速搜索方法
本专利技术涉及一种基于数据特征的时间序列流数据快速搜索方法,尤其涉及了一种基于数据特征的时间序列流数据高效相似性搜索方法,属于大数据分析与数据挖掘的

技术介绍
时间序列是指一种随着时间变化而形成的有序数据序列,简称时序。它反映了某个事务或事件随着时间变化的状态。通常提到的时序是指通过等间隔时间取样形成的具有实数值的有序数据序列。而其中有些时序信息不仅与某一时刻密切相关,从整体上看数据信息随时间连续性不断的产生,具有流的特点,因此被称为时间序列流数据,例如卫星在轨时间序列流数据、制造业传感数据,在线交易数据等等。近年来,对时间序列流数据的管理成为了一个研究热点,因为时间序列流数据的应用范围十分广泛,传感器网络监测,移动对象搜索和追踪,网络交通分析等都需要持续监测时间序列流。面对海量、高维的时序数据,对其进行数据挖掘,获取数据背后相应的知识,是一个具有挑战性的问题。对时间序列流数据进行相似性搜索,是在时间序列流数据中找出所有与查询时序Q距离不超过用户定义阈值的时间序列片段。作为一个数据挖掘中的基础问题,相似性搜索是对时序数据进行分析的一项基本技术,也是为后续分类、聚类、模式匹配等数据挖掘方法提供帮助的一个基本工作。目前对时间序列进行的相似性搜索大多应用于时间序列数据库文件,在其中寻找与查询时序Q最具有相似特征的时序R。采取的搜索技术为,首先对时间序列进行降维表示,降维后的时序数据需满足下界定理(降维空间中两条时序的距离小于等于其真实距离)。然后将降维后的时序数据插入到已知的索引结构中,通过索引进行相似性搜索。降维方法包括DFT、DWT、PAA、APCA等,索引结构有R树及其变种等。对时间序列的相似度度量函数则主要包括Lp-norms、DTW、最长公共子串LCSS等。然而,相比于传统的时间序列数据库数据,时间序列流数据具有连续和更新频繁的特点,使得维护索引的代价变大,因此之前应用于传统时序数据库的相似性搜索方法,不能直接应用于时序流数据。因为更新频繁,时间序列流数据不能全部存储于内存或硬盘,而是源源不断的到来,因此对时序流数据的处理提出了“一遍式扫描”和实时响应的要求。
技术实现思路
针对现有技术的不足,本专利技术提供了一种基于数据特征的时间序列流数据快速搜索方法;在满足时间序列流数据“一遍式扫描”处理的基础上,采用相应的优化策略,大幅度减少搜索时间,以达到实时响应的要求。本专利技术所要解决的技术问题是:如何随着时间序列流数据源源不断的到来,找出其中与查询时序Q相似的子序列,即满足与查询时序Q的距离在用户定义阈值范围内的时序片段。在处理过程中,对不相似的片段忽略,相似的片段标记。本专利技术以滑动窗口思想为基本框架,将查询时序Q在时间序列流数据中的搜索分割为Q与每个滑动窗口内子序列的比较,满足了时间序列流数据“一遍式扫描”的处理特点,并将子序列匹配转换为全序列匹配。结合CSTP线性分割方法,找出时序分割点,并对分割点按照其对时序波动影响程度的大小来赋予权值。将分割点扩展为局部特征,按照分割点权值由大到小的顺序,用局部特征对时序进行表示,并计算相应局部特征的下界距离,满足非漏报要求,保证结果准确。对距离进行累加和判断,及早终止计算,缩减搜索空间,减少计算代价,从而达到减少搜索时间的目的。考虑到应用的广泛性,本专利技术选择欧氏距离作为时序相似度度量函数。本方法对时间序列流数据进行相似性搜索的效率较高,满足了对时间序列流数据处理的“一遍式扫描”和实时响应要求。本方法中的下界距离计算和局部特征分级计算有效缩减了搜索空间,减小了计算代价,使搜索时间大大降低。且满足非漏报原则的下界距离使得搜索结果准确,不会产生漏报现象,达到了精确搜索的目的。术语解释:1、距离阈值(distancethreshold,DT),是指满足相似定义的搜索时序与查询时序之间距离的最大值。2、CSTP,一种基于转折点的在线连续分割算法,在时间序列中找出分割点,将其用于时间序列的分段线性表示,以达到降维和简化时间序列的目的。3、下界距离(lowerbounding),是指满足下界定理的一种近似距离计算方式。两条时间序列之间的下界距离一定满足小于等于其真实距离。于是若满足下界距离小于DT,则可保证真实距离也一定小于DT。本文采取的下界距离计算公式在下文技术方案中进行详细解释。4、结果集,是指保存从时间序列流数据中筛选出的与查询序列相似的时序片段的结果的集合。5、堆排序算法,是指利用堆这种数据结构所设计的一种现有的排序算法,它是选择排序的一种。可以利用数组的特点快速定位指定索引的元素,最终将一组序列根据需要按照增序或降序输出。本专利技术所采用最终输出次序为降序。本专利技术的技术方案为:一种基于数据特征的时间序列流数据快速搜索方法,包括步骤如下:S1,参数预设,包括范围搜索用到的距离阈值DT、对时序进行CSTP分割所用到的参数;对时序进行CSTP分割所用到的参数包括:单点最大数据拟合误差ME_SP、分段最大数据拟合误差ME_ES、转折点斜率变化参数μ、数据趋势点时间范围参数ρ;单点最大数据拟合误差ME_SP是指在某一数据段的所有数据点中与拟合直线的垂直距离最大的数据点;分段最大数据拟合误差ME_ES是指所有数据段中的拟合误差最大的数据段;转折点斜率变化参数μ是指在筛选数据趋势点时所指定的斜率变化门限值;数据趋势点时间范围参数ρ是指在筛选数据趋势点时所指定的时间范围门限值;距离阈值DT由用户指定,是判定两条时序是否相似的标准依据。当两条序列的距离小于等于DT时,判定为相似,否则,则不相似。DT越大,相似搜索的范围越广。用户可以通过调节DT控制搜索的精度。单点最大数据拟合误差ME_SP、分段最大数据拟合误差ME_ES是用户预先指定的优化参数,通过最大单点误差ME_SP和最大段误差ME_ES,可以对数据表示的精度进行限制并优化,可以实现以用户指定的数据精度,进行相应的数据简化表示。数据趋势斜率度量参数(μ)和时间范围度量参数(ρ),是筛选数据趋势点的重要参数,他们可以根据数据趋势的不同进行灵活的设定,以满足相应的数据表达要求。根据用户对数据表达所反映的数据变化趋势详尽程度的要求,将参数从小到大进行调节;S2,对查询序列Q进行CSTP分割,并进行多级局部特征表示;所述步骤S2,包括步骤如下:a.使用现有技术CSTP算法,对查询序列Q进行分割,找出并标记查询序列Q的分割点,获得的分割点将查询序列Q分为长度不等的若干段,利用所述若干段的相关信息对该查询序列Q进行降维近似表示,具体的表示方式为:把每一段用两个值来表示,第一个值是这一段所包含的原始数据点值的平均值,第二个值是这一段包含的最后一个数据点在查询序列Q中的位置下标;如假设查询序列Q原本是一条具有100个点的时间序列,经过CSTP分割后,得到了11个分割点。11个分割点包含起始点和终止点,将Q分成了10段。每段用上述两个值来表示,则可以用这10段表示Q这条序列;b.对查询序列Q进行多级局部特征表示,衡量分割点对时间序列波动程度的影响,衡量的方式为:该分割点所对应的原始数据点的值与查询序列Q所包含的所有数据点值的平均值的差的绝对值;绝对值越大,影响程度越大。该绝对值即为该分割点本文档来自技高网
...

【技术保护点】
1.一种基于数据特征的时间序列流数据快速搜索方法,其特征在于,包括步骤如下:S1,参数预设,包括范围搜索用到的距离阈值DT、对时序进行CSTP分割所用到的参数;对时序进行CSTP分割所用到的参数包括:单点最大数据拟合误差ME_SP、分段最大数据拟合误差ME_ES、转折点斜率变化参数μ、数据趋势点时间范围参数ρ;单点最大数据拟合误差ME_SP是指在某一数据段的所有数据点中与拟合直线的垂直距离最大的数据点;分段最大数据拟合误差ME_ES是指所有数据段中的拟合误差最大的数据段;转折点斜率变化参数μ是指在筛选数据趋势点时所指定的斜率变化门限值;数据趋势点时间范围参数ρ是指在筛选数据趋势点时所指定的时间范围门限值;S2,对查询序列Q进行CSTP分割,并进行多级局部特征表示;S3,对时间序列流数据以滑动窗口的方式进行数据扫描,扫描数据的同时,将滑动窗口内的子序列W进行多级局部特征表示,当前滑动窗口内包含的数据点序列为窗口子序列W;S4,对多级局部特征表示后的查询序列Q和窗口子序列W进行下界距离计算,若下界距离大于距离阈值DT,则忽略该片段,窗口继续滑动,否则,进入步骤S5;S5,计算查询序列Q和窗口子序列W的实际距离,若实际距离大于距离阈值DT,则判定为不相似,否则,则判定为相似,将窗口子序列W添加到结果集中。...

【技术特征摘要】
1.一种基于数据特征的时间序列流数据快速搜索方法,其特征在于,包括步骤如下:S1,参数预设,包括范围搜索用到的距离阈值DT、对时序进行CSTP分割所用到的参数;对时序进行CSTP分割所用到的参数包括:单点最大数据拟合误差ME_SP、分段最大数据拟合误差ME_ES、转折点斜率变化参数μ、数据趋势点时间范围参数ρ;单点最大数据拟合误差ME_SP是指在某一数据段的所有数据点中与拟合直线的垂直距离最大的数据点;分段最大数据拟合误差ME_ES是指所有数据段中的拟合误差最大的数据段;转折点斜率变化参数μ是指在筛选数据趋势点时所指定的斜率变化门限值;数据趋势点时间范围参数ρ是指在筛选数据趋势点时所指定的时间范围门限值;S2,对查询序列Q进行CSTP分割,并进行多级局部特征表示;S3,对时间序列流数据以滑动窗口的方式进行数据扫描,扫描数据的同时,将滑动窗口内的子序列W进行多级局部特征表示,当前滑动窗口内包含的数据点序列为窗口子序列W;S4,对多级局部特征表示后的查询序列Q和窗口子序列W进行下界距离计算,若下界距离大于距离阈值DT,则忽略该片段,窗口继续滑动,否则,进入步骤S5;S5,计算查询序列Q和窗口子序列W的实际距离,若实际距离大于距离阈值DT,则判定为不相似,否则,则判定为相似,将窗口子序列W添加到结果集中。2.根据权利要求1所述的一种基于数据特征的时间序列流数据快速搜索方法,其特征在于,所述步骤S2,包括步骤如下:a.使用现有技术CSTP算法,对查询序列Q进行分割,找出并标记查询序列Q的分割点,获得的分割点将查询序列Q分为长度不等的若干段,利用所述若干段的相关信息对该查询序列Q进行降维近似表示,具体的表示方式为:把每一段用两个值来表示,第一个值是这一段所包含的原始数据点值的平均值,第二个值是这一段包含的最后一个数据点在查询序列Q中的位置下标;b.对查询序列Q进行多级局部特征表示,衡量分割点对时间序列波动程度的影响,衡量的方式为:该分割点所对应的原始数据点的值与查询序列Q所包含的所有数据点值的平均值的差的绝对值;该绝对值即为该分割点对应数据点与查询序列Q的平均值所在水平线的竖直距离;以此作为分割点的权值,并对分割点按照其权值由大到小的顺序进行排序;依次取出排序后的分割点,假设当前取出的分割点为A,则A跟查询序列Q的分割点中,与A左邻的分割点构成前一段,跟与A右邻的分割点构成后一段,由分割点A划分的前一分段和后一分段组成了该分割点的一个局部特征,以此类推,用所有分割点对应的局部特征表示查询序列Q。3.根据权利要求2所述的一种基于数据特征的时间序列流数据快速搜索方法,其特征在于,所述步骤a中,使用CSTP算法,对查询序列Q进行分割,包括步骤如下:假设查询序列Q=(q0,q1,q2,…,qi,…,qn),qi表示时间序列流数据中某一时刻的时间序列数据点;假设经过CSTP算法对查询序列Q进行分割后,得到分割点为(cr0,cr1,cr2,…,cri,…,crm),cri是某分割点对应的数据点在原始时间序列中的位置下标,cr0=0,crm=n,查询序列Q被m+1个分割点分为m段,第i段表示为<cvi,cri>,cri是第i个分割点,cvi为第i段中包含的时间序列数据点值的平均值,mean()是对括号中的参数求平均值的函数。4.根据权利要求2所述的一种基于数据特征的时间序列流数据快速搜索方法,其特征在于,所述步骤b,对分割点按照其权值由大到小的顺序进行排序,是指:按照每个分割点的权值,用堆排序算法对分割点进行了排序;依次取出排序后的分割点;假设cri为分割点按权重排序后取出的第i个分割点,则cri跟原始序列Q的分割点中与cri左邻的分割点之间的数据点构成前一段<cvi,cri>,跟与cri右邻的分割点之间的数据点构成后一段<cvi+1,cri+1>;由其所连接的前后两个分段是时间序列的一个局部特征,即第i个局部特征为:...

【专利技术属性】
技术研发人员:展鹏蒯硕李学庆丁一明胡宇鹏
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1