当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于权重的时间序列数据降维与多分辨率表示方法技术

技术编号:20160399 阅读:42 留言:0更新日期:2019-01-19 00:13
本发明专利技术涉及一种基于权重的时间序列数据降维与多分辨率表示方法,该方法以时间序列数据分割的核心算法:分段线性表示为基础,结合自顶向下分段线性表示以及数据权重较大的数据点,对时间序列数据进行数据分割与降维操作,并在操作的过程中对相应的数据点按照其权重的不同,建立多分辨率数据表示索引,在数据降维的基础上既保证了数据表达的精确性(拟合精度)又以多分辨率显示的方式满足了不同用户对数据简化表达与数据展示的多样性需求。

【技术实现步骤摘要】
一种基于权重的时间序列数据降维与多分辨率表示方法
本专利技术涉及一种基于权重的时间序列数据降维与多分辨率表示方法,尤其涉及了一种基于分段线性表示(Piecewiselinearrepresentation,PLR)的“高维”时间序列数据的数据降维与多分辨率数据可视化方法,属于数据分析与数据挖掘的

技术介绍
随着“互联网+”时代的到来,各种基于网络技术、移动通信技术、物联网技术的应用层出不穷,在各种电子商务活动以及各种工业信息化交互中都产生了大量的、基于时间序列的业务数据信息,被称为时间序列数据(TimeSeriesData)。时间序列数据不仅反映了数据在某一时刻的状态信息,时序数据整体也反映了一定的数据变化规律和趋势。过去几年随着社交网络的不断发展壮大、工业4.0概念的提出,社会已经进入了大数据时代(2013年也被称为大数据元年),这就意味着大数据开始进入商用阶段,因此,针对时间序列数据的分析与挖掘的相关研究工作也愈演愈烈,逐渐成为大数据分析与挖掘的热点问题之一。目前,传统的数据分析与数据可视化技术无法直接应用于时间序列数据的研究,主要包括以下几方面的原因:1、数据存储成本大、数据分析代价高时间序列数据一般具有“海量”、“高维”、“连续”等特点,与传统的静态数据有很大的不同,受制于相应的计算代价与存储成本的限制,无法对时间序列原始数据直接开展相应的数据分析与挖掘研究工作。因此,需要在分析之前进行相应的数据降维与简化表示操作。2、数据降维与数据简化表示思路相对局限目前,基于时间序列的降维操作,往往仅局限于时序数据中的极值点,并以极值点的权重作为数据简化表达的依据。这样进行数据简化表达往往过于主观,在某些应场景下数据表达的效果并不十分理想。因此,需要采用更加合理的度量数据权重的一般性方法。3、数据表达和数据可视化形式单一前主流的基于时间序列数据的降维方法与数据简化表示只能按照某些用户所指定具体的拟合精度进行简化表示,即数据降维与数据简化表示形式相对单一,如果想在某次数据分析之后,对拟合精度进行修改并再次进行数据分析,则需要重复相同的数据降维过程,无疑对数据分析和挖掘工作增加了不必要的分析成本。此外,相对固定的数据表达方式,无法满足用户针对不同的应用场景以多分辨率形式进行数据可视化的基本要求。根据以上的分析,针对时间序列数据的分析与可视化研究,首先需要对时间序列数据进行相应的数据降维操作与数据简化表示。分段线性表示(Piecewiselinearrepresentation,PLR)是目前主流的时间序列数据降维和数据简化表示的重要方法之一,它与人类视觉的数据观测规律相吻合,是非常直观和简洁的数据表示方法。通过对时序数据进行“分段线性表示”,可以以较低的数据维度为分布式数据存储设计索引边界函数,也可以极大地提高相似序列检索的计算效率。目前,分段线性表示的时间序列数据简化方法广泛应用于时间序列数据分析与挖掘的研究之中,是时间序列数据分类、聚类、异常点监测、数据预测、数据子序列匹配等热点问题研究方法的基础和前提。
技术实现思路
针对现有技术中存在的问题,本申请提供了一种基于权重的时间序列数据降维与多分辨率表示方法;本专利技术对时间序列数据进行有效的数据降维操作,并对相应的数据简化表示以一种灵活的、多分辨率的形式进行数据可视化展现。本专利技术数据降维操作以时间序列数据分割的核心算法:分段线性表示(Piecewiselinearrepresentation,PLR)为基础,结合自顶向下(topdown)分段线性表示(PLR_TD)以及数据权重较大的数据点,对时间序列数据进行数据分割与降维操作,并在操作的过程中对相应的数据点按照其权重的不同,建立多分辨率表示(multi-resolutionrepresentation)索引,在数据降维的基础上既保证了数据表达的精确性(拟合精度)又以多分辨率显示的方式满足了不同用户对数据表达与显示的不同需求。本方法对时间序列数据所进行数据分割处理效率较高,并能最大限度的满足用户对时序数据简化表示和多分辨率数据显示要求。因此本方法为接下来可能进行的基于时间序列流数据的分类、聚类、数据预测以及相似序列匹配与检索、大数据可视化等科研工作,提供了技术保障和参考依据。术语解释:1、时间序列数据(timeseriesdata,TS),TS=(vt1,vt2,…,vti,…,vtn)长度为n,其中1≤i≤n,vti表示时间序列TS中某一个具体的时间序列数据点,简称为时序点,时序点vti包括具体的时刻ti及该时刻的实测数据值vi,vti=(vi,ti)。2、TS数据权重,不失一般性,设TS的拟合直线为连接TS首尾端点的线段,即TSline=(vt1,vtn),则TS上任意数据点vti的拟合误差(fittingerrorofsinglepoint,fe_spi),可以通过计算数据点vti到TSline的垂直距离来获取,采用垂直距离的计算方式去度量TS数据权重(数据点对数据趋势的影响),需要指出的是,两点间的欧式距离、直线的正交距离都可以用来计算拟合误差(相关资料已经给出证明),但是垂直距离的计算更加直观和简洁。具体计算如公式1所示fe_spi=|v1+(ti-t1)*(vn-v1)/(tn-t1)-vi|(1)TS中每个数据点的权重可以根据公式(1)以TS单点误差的形式进行表示,此外根据分析公式(1)可知,除了TS中的起始点vt1,以及终止点vtn的权重为0以外,其余数据点的权重(拟合误差)的大小均取决于它们自身与拟合直线TSline的远近程度。对TS数据利用公式(1)进行一次遍历,我们可以获得数据点vtk,其数据权重(单点误差)在TS中最大,fe_spk被称为TS中的最大单点权重(maximumweightofsinglepoint,mw_sp),mw_sp的计算如公式(2)所示此外,我们可以在公式(1)的基础上,计算当前数据分段的权重(weightofentiresegment,w_es)。不失一般性,假设将当前TS看成一个数据分段,TS的w_es的计算如公式(3)所示。不失一般性,假设TS当前的分段数目为K,即TS={S1,S2,…,SK},用公式(1)、公式(3)分别计算当前K个数据分段的分段权重,并利用公式(4)获取TS的当前最大分段权重(maximumweightofentiresegment,mw_es)。3、TS数据分段表示与降维策略:经过以上的说明,TS的数据简化表示与降维策略可以表述如下:(1)从当前TS的K个数据分段中利用公式(1)、公式(3)、公式(4)寻找具有mw_es的数据分段Si(1≤i≤K)。(2)不失一般性,假设数据分段Si的起始点与终止点分别为vtp和vtq,则Si可以表示为:Si=(vtp,vt(p+1),…,vtj,…,vtq),利用公式(2)从Si中选出具有mw_sp的数据点vtj。(3)利用vtj将原始数据分段Sj,再次细分为以及两个数据分段,当前TS的数据分段数为K+1。(4)继续以上三个操作步骤,在具有mw_es的数据分段中寻找具有mw_sp的数据点,进行PLR数据简化表示并同时完成数据维度的降低。直到TS中的数据分段点满足数据压缩率(dataco本文档来自技高网
...

【技术保护点】
1.一种基于权重的时间序列数据降维与多分辨率表示方法,其特征在于,该方法以基于“自顶向下”的分段线性表示为基准,包括步骤如下:S1,预设数据压缩率DCR阈值ρ;S2,将时间序列数据TS的起始点vt1和终止点vtn选定为初始数据分段点,计算时间序列数据TS的任意数据点权重和当前数据分段权重,并将vt1、vt2转换成相应的链表节点存入MRISL中;S3,根据S2的处理结果,从此步骤开始,利用TS分段表示策略,从当前分段中选择具有mw_es的数据分段,并从该分段中选择具有mw_sp的数据点vtk,作为新的数据分段点,并对当前数据分段进行再次细分;S4,判断当前MRSIL中的数据点个数numcur是否已经超过了ρ的限制,如果没有超过,则继续执行步骤S3,否则,步骤S3终止,相应的MRSI建立完毕;S5,通过基于TS建立的MRSI以及相应的DCR,实现(0,ρ)范围内的,任意数据压缩率DCR下的数据多分辨率简化表示。

【技术特征摘要】
1.一种基于权重的时间序列数据降维与多分辨率表示方法,其特征在于,该方法以基于“自顶向下”的分段线性表示为基准,包括步骤如下:S1,预设数据压缩率DCR阈值ρ;S2,将时间序列数据TS的起始点vt1和终止点vtn选定为初始数据分段点,计算时间序列数据TS的任意数据点权重和当前数据分段权重,并将vt1、vt2转换成相应的链表节点存入MRISL中;S3,根据S2的处理结果,从此步骤开始,利用TS分段表示策略,从当前分段中选择具有mw_es的数据分段,并从该分段中选择具有mw_sp的数据点vtk,作为新的数据分段点,并对当前数据分段进行再次细分;S4,判断当前MRSIL中的数据点个数numcur是否已经超过了ρ的限制,如果没有超过,则继续执行步骤S3,否则,步骤S3终止,相应的MRSI建立完毕;S5,通过基于TS建立的MRSI以及相应的DCR,实现(0,ρ)范围内的,任意数据压缩率DCR下的数据多分辨率简化表示。2.根据权利要求1所述的一种基于权重的时间序列数据降维与多分辨率表示方法,其特征在于,所述步骤S2,计算时间序列数据TS的任意数据点权重,包括:设时间序列数据TS的拟合直线为连接起始点vt1和终止点vtn的线段,即TSline=(vt1,vtn),则TS上任意数据点vti的权重fe_spi为数据点vti到TSline的垂直距离,具体计算如公式(Ⅰ)所示式(Ⅰ)中,时序点vt1包括具体的时刻t1及该时刻的实测数据值v1,vt1=(v1,t1);时序点vtn包括具体的时刻tn及该时刻的实测数据值vn,vtn=(vn,tn);时序点vti包括具体的时刻ti及该时刻的实测数据值vi,vti=(vi,ti);起始点vt1的权重、终止点vtn的权重均为0。3.根据权利要求1所述的一种基于权重的时间序列数据降维与多分辨率表示方法,其特征在于,所述步骤S2,计算时间序列数据TS的当前数据分段权重,包括:a、选取时间序列数据TS上权重最大的对应的数据点,设定为vtk,数据点vtk的权重fe_spk被称为时间序列数据TS中的最大单点权重mw_sp,计算如公式(Ⅱ)所示:b、假设将当前时间序列数据TS看成一个数据分段,时间序列数据TS的w_es的计算如公式(Ⅲ)所示:c、假设时间序列数据TS当前的分段数目为K,即TS={S1,S2,…,SK},通过公式(Ⅰ)、公式(Ⅱ)分别计算当前K个数据分段的分段权重,并利用公式(Ⅳ)获取时间序列数据TS的当前最大分段权重mw_es:4.根据权利要求1所述的一种基于权重的时间序列数据降维与多分辨率表示方法,其特征在于,所述步骤S2,将vt1、vt2转换成相应的链表节点存入数据分段点列表MRISL中,数据分段点列表MRISL为一个存储数据分段点的数据链表,包括步骤如下:d.根据时间序列数据TS分段策略所获取的数据分段点定义为相应的链表节点(listnode,LN),时间序列数据TS分段策略所获取的数据分段点是指当前具有mw_es的数据分段中被标记为mw_sp的数据点,并将此LN依次存入数据分段点列表MRISL中,LN的数据结构包括index、value、rank、weightL、weightR、mes、ets,index是指数据分段点在TS中的原始位置,value是指数据分段点的原始数据值,rank是指数据分段点的选出次序;weightL是指分段点左侧的数据分段的权重值;weightR是指分段点右侧的数据分段的权重值;mes是指当前TS的mw_es值;ets是指当前TS的整体权重值。5.根据权利要求1所述的一种基于权重的时间序列数据降维与多分辨率表示方法,其特征在于,ets表示当某个具体的数据分段点被选取出来,对当前时间序列...

【专利技术属性】
技术研发人员:胡宇鹏赵新晓李学庆秦东黄刚叶
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1