The invention relates to a piecewise linear representation of data dimensionality reduction and simplification of time series stream representation method based on the preset data including: S1, S2, segmentation and compression parameters; flow data of time series data in sliding window scanning mode, enter the data stream buffer; S3, determine the fitting error initial segment data segment do not exceed the maximum data segment fitting error ME_ES, if not more than, is retained, and mark it as \inseparable\; if more than two times, then piecewise optimization; S4, will flow in the data buffer is labeled as \inseparable\ data segment out flow data buffer, to determine whether there is time the sequence of pending flow data, if any, return to step S2, otherwise, the end. The invention guarantees the execution efficiency of data dimensionality reduction to the maximum, and optimizes the fitting precision of the data simplified representation to a certain extent, thereby improving the accuracy and the efficiency of data representation.
【技术实现步骤摘要】
一种基于分段线性表示的时间序列流数据降维与简化表示方法
本专利技术涉及一种基于分段线性表示的时间序列流数据降维与简化表示方法,尤其涉及了一种基于分段线性表示(Piecewiselinearrepresentation,PLR)的“海量”、“高维”时间序列流数据的数据降维与简化表示方法,属于大数据分析与数据挖掘的
技术介绍
随着互联网时代的到来,移动通信技术、物联网技术得到了广泛的应用与推广。各种商业交互活动、制造业的各种传感器设备和检测设备都产生了大量的、基于时间的业务数据信息,这种数据信息不仅与某一具体时刻密切相关,从整体上看数据信息还具有时间连续性的特点:像流水一样的不断被产生,因此可以被称为时间序列流数据(StreamingTimeSeries)。面对这些“海量”、“高维”、“连续”的数据序列,我们无法采用基于传统静态数据的一般处理方法直接对时序流数据进行相应的数据分析与数据挖掘操作,需要首先对时间序列流数据进行相应的数据降维操作与数据简化表示。分段线性表示是目前主流的时间序列数据降维和数据简化表示的重要方法之一,它与人类视觉的数据观测规律相吻合, ...
【技术保护点】
一种基于分段线性表示的时间序列流数据降维与简化表示方法,其特征在于,包括步骤如下:S1,预设数据分段与压缩参数,包括单点最大数据拟合误差ME_SP、分段最大数据拟合误差ME_ES、数据趋势点斜率度量参数μ、数据趋势点时间度量参数ρ;S2,对时间序列流数据以滑动窗口方式的进行数据扫描,扫描后的数据全部进入流数据缓冲区;a.扫描数据的同时,进行以斜率运算为基础,并以预设参数单点最大数据拟合误差ME_SP为门限值,进行时间序列流数据的初始分段,并标记时间序列流数据初始分段点;b.扫描数据的同时,记录所有的时间序列流数据趋势点;S3,以分段最大数据拟合误差ME_ES作为门限值,对流 ...
【技术特征摘要】
1.一种基于分段线性表示的时间序列流数据降维与简化表示方法,其特征在于,包括步骤如下:S1,预设数据分段与压缩参数,包括单点最大数据拟合误差ME_SP、分段最大数据拟合误差ME_ES、数据趋势点斜率度量参数μ、数据趋势点时间度量参数ρ;S2,对时间序列流数据以滑动窗口方式的进行数据扫描,扫描后的数据全部进入流数据缓冲区;a.扫描数据的同时,进行以斜率运算为基础,并以预设参数单点最大数据拟合误差ME_SP为门限值,进行时间序列流数据的初始分段,并标记时间序列流数据初始分段点;b.扫描数据的同时,记录所有的时间序列流数据趋势点;S3,以分段最大数据拟合误差ME_ES作为门限值,对流数据缓冲区中的初始分段数据片段进行拟合误差评估,判断初始分段数据片段的拟合误差是否超过分段最大数据拟合误差ME_ES,如果初始分段数据片段的拟合误差不超过分段最大数据拟合误差ME_ES,则保留该初始分段数据片段,并将其标记为“不可分”;如果初始分段数据片段的拟合误差超过分段最大数据拟合误差ME_ES,则对该初始分段数据片段内部进行二次优化分段;S4,将流数据缓冲区中标记为“不可分”的连续数据分段移出流数据缓冲区,判断是否还有待处理的时间序列流数据,如果有,返回步骤S2,否则,结束。2.根据权利要求1所述的一种基于分段线性表示的时间序列流数据降维与简化表示方法,其特征在于,所述步骤a中,进行基于斜率计算的线段划分,包括;设定时间序列流数据T=(…,ai,…,aj,…),ai表示时间序列流数据中某一个具体的时间序列数据点,简称为时序点,时序点ai包括具体的时刻ti及该时刻的实测数据值xi,ai=(xi,ti);时序点aj包括具体的时刻tj及该时刻的实测数据值xj,aj=(xj,tj);包括:对时间序列流数据T中的每个时序点依次顺序扫描,经过每一个时序点时观察该时序点的斜率上下界,并判断斜率上下界是否超过单点最大数据拟合误差ME_SP;即:设定从时序点ai开始扫描,ME_SP=σ,经过时序点aj时,时序点aj的斜率上下界的具体表示如下所示:将连接时序点ai和时序点aj所形成的直线表示为line(ai,aj);连接时序点ai和时序点aj所形成直线line(ai,aj)的斜率表示为sline(ai,aj);连接时序点ai和(aj-σ)所形成直线的斜率表示为slow(ai,aj),连接时序点ai和(aj+σ)所形成直线的斜...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。