一种基于数据特征的时间序列流数据快速搜索方法技术

技术编号：20329180 阅读：38 留言：0更新日期：2019-02-13 05:46

本发明专利技术涉及一种基于数据特征的时间序列流数据快速搜索方法。包括：S1，参数预设：距离阈值DT；S2，对查询序列Q进行CSTP分割，并进行多级局部特征表示；S3，对时间序列流数据以滑动窗口的方式进行数据扫描，将滑动窗口内的子序列W进行多级局部特征表示；S4，对查询序列Q和窗口子序列W进行下界距离计算，若下界距离大于距离阈值DT，则忽略该片段，窗口继续滑动，否则，计算查询序列Q和窗口子序列W的实际距离，若实际距离大于距离阈值DT，则判定为不相似，否则，则判定为相似。本发明专利技术满足了时间序列流数据处理的一遍式扫描要求和实时响应要求。在保证搜索结果准确的前提下，减少了计算代价，节省了搜索计算时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据特征的时间序列流数据快速搜索方法
本专利技术涉及一种基于数据特征的时间序列流数据快速搜索方法，尤其涉及了一种基于数据特征的时间序列流数据高效相似性搜索方法，属于大数据分析与数据挖掘的

技术介绍
时间序列是指一种随着时间变化而形成的有序数据序列，简称时序。它反映了某个事务或事件随着时间变化的状态。通常提到的时序是指通过等间隔时间取样形成的具有实数值的有序数据序列。而其中有些时序信息不仅与某一时刻密切相关，从整体上看数据信息随时间连续性不断的产生，具有流的特点，因此被称为时间序列流数据，例如卫星在轨时间序列流数据、制造业传感数据，在线交易数据等等。近年来，对时间序列流数据的管理成为了一个研究热点，因为时间序列流数据的应用范围十分广泛，传感器网络监测，移动对象搜索和追踪，网络交通分析等都需要持续监测时间序列流。面对海量、高维的时序数据，对其进行数据挖掘，获取数据背后相应的知识，是一个具有挑战性的问题。对时间序列流数据进行相似性搜索，是在时间序列流数据中找出所有与查询时序Q距离不超过用户定义阈值的时间序列片段。作为一个数据挖掘中的基础问题，相似性搜索是对时序数据进行分析的一项基本技术，也是为后续分类、聚类、模式匹配等数据挖掘方法提供帮助的一个基本工作。目前对时间序列进行的相似性搜索大多应用于时间序列数据库文件，在其中寻找与查询时序Q最具有相似特征的时序R。采取的搜索技术为，首先对时间序列进行降维表示，降维后的时序数据需满足下界定理(降维空间中两条时序的距离小于等于其真实距离)。然后将降维后的时序数据插入到已知的索引结构中，通过索引进行相似性搜...

【技术保护点】
1.一种基于数据特征的时间序列流数据快速搜索方法，其特征在于，包括步骤如下：S1，参数预设，包括范围搜索用到的距离阈值DT、对时序进行CSTP分割所用到的参数；对时序进行CSTP分割所用到的参数包括：单点最大数据拟合误差ME_SP、分段最大数据拟合误差ME_ES、转折点斜率变化参数μ、数据趋势点时间范围参数ρ；单点最大数据拟合误差ME_SP是指在某一数据段的所有数据点中与拟合直线的垂直距离最大的数据点；分段最大数据拟合误差ME_ES是指所有数据段中的拟合误差最大的数据段；转折点斜率变化参数μ是指在筛选数据趋势点时所指定的斜率变化门限值；数据趋势点时间范围参数ρ是指在筛选数据趋势点时所指定的时间范围门限值；S2，对查询序列Q进行CSTP分割，并进行多级局部特征表示；S3，对时间序列流数据以滑动窗口的方式进行数据扫描，扫描数据的同时，将滑动窗口内的子序列W进行多级局部特征表示，当前滑动窗口内包含的数据点序列为窗口子序列W；S4，对多级局部特征表示后的查询序列Q和窗口子序列W进行下界距离计算，若下界距离大于距离阈值DT，则忽略该片段，窗口继续滑动，否则，进入步骤S5；S5，计算查询序列Q和窗...

【技术特征摘要】
1.一种基于数据特征的时间序列流数据快速搜索方法，其特征在于，包括步骤如下：S1，参数预设，包括范围搜索用到的距离阈值DT、对时序进行CSTP分割所用到的参数；对时序进行CSTP分割所用到的参数包括：单点最大数据拟合误差ME_SP、分段最大数据拟合误差ME_ES、转折点斜率变化参数μ、数据趋势点时间范围参数ρ；单点最大数据拟合误差ME_SP是指在某一数据段的所有数据点中与拟合直线的垂直距离最大的数据点；分段最大数据拟合误差ME_ES是指所有数据段中的拟合误差最大的数据段；转折点斜率变化参数μ是指在筛选数据趋势点时所指定的斜率变化门限值；数据趋势点时间范围参数ρ是指在筛选数据趋势点时所指定的时间范围门限值；S2，对查询序列Q进行CSTP分割，并进行多级局部特征表示；S3，对时间序列流数据以滑动窗口的方式进行数据扫描，扫描数据的同时，将滑动窗口内的子序列W进行多级局部特征表示，当前滑动窗口内包含的数据点序列为窗口子序列W；S4，对多级局部特征表示后的查询序列Q和窗口子序列W进行下界距离计算，若下界距离大于距离阈值DT，则忽略该片段，窗口继续滑动，否则，进入步骤S5；S5，计算查询序列Q和窗口子序列W的实际距离，若实际距离大于距离阈值DT，则判定为不相似，否则，则判定为相似，将窗口子序列W添加到结果集中。2.根据权利要求1所述的一种基于数据特征的时间序列流数据快速搜索方法，其特征在于，所述步骤S2，包括步骤如下：a.使用现有技术CSTP算法，对查询序列Q进行分割，找出并标记查询序列Q的分割点，获得的分割点将查询序列Q分为长度不等的若干段，利用所述若干段的相关信息对该查询序列Q进行降维近似表示，具体的表示方式为：把每一段用两个值来表示，第一个值是这一段所包含的原始数据点值的平均值，第二个值是这一段包含的最后一个数据点在查询序列Q中的位置下标；b.对查询序列Q进行多级局部特征表示，衡量分割点对时间序列波动程度的影响，衡量的方式为：该分割点所对应的原始数据点的值与查询序列Q所包含的所有数据点值的平均值的差的绝对值；该绝对值即为该分割点对应数据点与查询序列Q的平均值所在水平线的竖直距离；以此作为分割点的权值，并对分割点按照其权值由大到小的顺序进行排序；依次取出排序后的分割点，假设当前取出的分割点为A，则A跟查询序列Q的分割点中，与A左邻的分割点构成前一段，跟与A右邻的分割点构成后一段，由分割点A划分的前一分段和后一分段组成了该分割点的一个局部特征，以此类推，用所有分割点对应的局部特征表示查询序列Q。3.根据权利要求2所述的一种基于数据特征的时间序列流数据快速搜索方法，其特征在于，所述步骤a中，使用CSTP算法，对查询序列Q进行分割，包括步骤如下：假设查询序列Q＝(q0，q1,q2,…,qi,…,qn)，qi表示时间序列流数据中某一时刻的时间序列数据点；假设经过CSTP算法对查询序列Q进行分割后，得到分割点为(cr0，cr1，cr2，…,cri,…,crm),cri是某分割点对应的数据点在原始时间序列中的位置下标，cr0＝0，crm＝n，查询序列Q被m+1个分割点分为m段，第i段表示为<cvi,cri>,cri是第i个分割点，cvi为第i段中包含的时间序列数据点值的平均值，mean()是对括号中的参数求平均值的函数。4.根据权利要求2所述的一种基于数据特征的时间序列流数据快速搜索方法，其特征在于，所述步骤b,对分割点按照其权值由大到小的顺序进行排序,是指：按照每个分割点的权值，用堆排序算法对分割点进行了排序；依次取出排序后的分割点；假设cri为分割点按权重排序后取出的第i个分割点，则cri跟原始序列Q的分割点中与cri左邻的分割点之间的数据点构成前一段<cvi,cri>，跟与cri右邻的分割点之间的数据点构成后一段<cvi+1,cri+1>；由其所连接的前后两个分段是时间序列的一个局部特征,即第i个局部特征为：...

【专利技术属性】
技术研发人员：展鹏，蒯硕，李学庆，丁一明，胡宇鹏，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人