【技术实现步骤摘要】
压缩流数据的方法及设备
本专利技术实施例涉及信息处理领域,并且更具体地,涉及一种压缩流数据的方法及设备。
技术介绍
流数据是一组顺序、大量、快速、连续到达的数据序列。一般情况下,流数据可被视为一个随时间延续而无限增长的动态数据集合。流数据在网络监控、传感器网络、航空航天、气象测控和金融服务等应用领域广泛出现,通过对流数据研究可以进行卫星云图监测、股市走向分析、网络攻击判断等。在对流数据进行实时观测或存储的过程中,由于存储空间的限制,需要首先对流数据进行压缩。对于同一组流数据来说,压缩率越高,对存储空间的要求越低。然而现有的对流数据进行压缩的方法中,压缩率都不够高,这样,导致对存储空间的要求不是最低。
技术实现思路
本专利技术实施例提供一种压缩流数据的方法,对存储空间的要求最低。第一方面,提供了一种压缩流数据的方法,包括:获取流数据,其中,所述流数据包括多个数据点,所述多个数据点中的每个数据点包括采集所述每个数据点的采集时间以及在所述采集时间所采集的数据值;获取预定义的最大误差,根据所述多个数据点和所述最大误差,构造多个线段,所述多个线段互不相交,所述多个线段中的每个线 ...
【技术保护点】
一种压缩流数据的方法,其特征在于,包括:获取流数据,其中,所述流数据包括多个数据点,所述多个数据点中的每个数据点包括采集所述每个数据点的采集时间以及在所述采集时间所采集的数据值;获取预定义的最大误差,根据所述多个数据点和所述最大误差,构造多个线段,所述多个线段互不相交,所述多个线段中的每个线段表示以时间为自变量的函数,并且当所述自变量的值为所述采集时间时,所述函数的函数值与所述采集时间所采集的数据值之差的绝对值小于或等于所述最大误差;根据所述多个线段,确定目标分段线性函数,其中,所述目标分段线性函数包括多个线性函数,所述多个线性函数中的每两个线性函数的自变量的取值范围的交集 ...
【技术特征摘要】
1.一种压缩流数据的方法,其特征在于,包括:获取流数据,其中,所述流数据包括多个数据点,所述多个数据点中的每个数据点包括采集所述每个数据点的采集时间以及在所述采集时间所采集的数据值;获取预定义的最大误差,根据所述多个数据点和所述最大误差,构造多个线段,所述多个线段互不相交,所述多个线段中的每个线段表示以时间为自变量的线性函数,并且当所述自变量的值为所述采集时间时,所述函数的函数值与所述采集时间所采集的数据值之差的绝对值小于或等于所述最大误差;根据所述多个线段,确定目标分段线性函数,其中,所述目标分段线性函数包括多个线性函数,所述多个线性函数中的每两个线性函数的自变量的取值范围的交集最多包括一个值;根据所述目标分段线性函数,输出参考数据点,所述参考数据点用于表示压缩后的流数据,其中,所述参考数据点包括所述目标分段线性函数的连续点和间断点,所述连续点为所述目标分段线性函数的拐点,所述间断点为所述目标分段线性函数的非连续点。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个数据点和所述最大误差,构造多个线段,包括:根据所述多个数据点和所述最大误差,构建扩展多边形,其中,所述扩展多边形用于表示所述多个线段所在的区域;在所述扩展多边形的基础上计算链表,其中,所述链表包括信息域C[k]以及指针域pred[k],所述信息域C[k]用于表示所述多个线段,所述指针域pred[k]用于表示所述信息域C[k]指向信息域C[pred[k]],k为不等于1的非负整数,每一个k的取值所对应的C[k]用于表示所述多个线段中的一个线段。3.根据权利要求2所述的方法,其特征在于,所述C[k]通过如下的表达式得到:条件1为:k=0;条件2为:k=3或者k≥5且cw(C[k-2])位于cw(nw(C[k-3]))的左侧;对k=0,pred[0]为空;对k≠0,若C[k]=cw(nw(C[k-3])),则pred[k]=k-3;若C[k]=cw(C[k-2]),则pred[k]=k-2;其中,w0为起始窗口,cw(·)表示关闭窗口,nw(·)表示下一个窗口,所述窗口表示所述多个数据点构成的扩展多边形中上链的一点与下链的一点之间的连线段,所述起始窗口为所述扩展多边形构成的窗口中在时序上最早的一个窗口,所述关闭窗口为所述扩展多边形的任意一个窗口的可见区域的最右侧的窗口,所述可见区域为所述任意一个窗口的右侧的数据点中与所述任意一个窗口的连线位于所述扩展多边形内部的数据点构成的区域,所述右侧为沿着时间增加的方向,所述下一个窗口为所述关闭窗口右侧的第一个数据点所在的窗口。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述多个线段,确定目标分段线性函数,包括:根据所述多个线段之间的指向关系,确定所述目标分段线性函数。5.根据权利要求2或3所述的方法,其特征在于,所述根据所述多个线段,确定目标分段线性函数,包括:对所述链表进行剪枝,以使得不同的k,pred[k]互不相等;根据所述剪枝以后的链表,确定所述目标分段线性函数。6.根据权利要求5所述的方法,其特征在于,所述链表还包括计数域ref[k],用于表示所述信息域C[k]被指向的个数,若pred[k+2]=k且pred[k+3]=k,则ref[k]=2;若pred[k+2]=k且pred[k+3]≠k,则ref[k]=1;若pred[k+2]≠k且pred[k+3]=k,则ref[k]=1;若pred[k+2]≠k且pred[k+3]≠k,则ref[k]=0。7.根据权利要求6所述的方法,其特征在于,所述对所述链表进行剪枝,包括:将与ref[j]=0对应的C[j],pred[j],ref[j]从所述链表中删除,并更新ref[pred[j]],所述j表示使得所述ref[j]等于0的指标。8.根据权利要求5所述的方法,其特征在于,所述根据所述剪枝以后的链表,确定所述目标分段线性函数,包括:将所述剪枝后的链表中的C[k]对应的生成线段作为所述多个线性函数,并由所述多个线性函数构成所述目标分段线性函数。9.根据权利要求1至3任一项所述的方法,其特征在于,所述多个线性函数包括相邻的第一线性函数和第二线性函数,其中,所述相邻是指所述第一线性函数的自变量的取值范围与所述第二线性函数的自变量的取值范围的交集不为空,且所述交集为采集时间参数;当自变量的值为所述采集时间参数时,所述第一线性函数的函数值为第一函数值;当自变量的值为所述采集时间参数时,所述第二线性函数的函数值为第二函数值;当所述第一函数值等于所述第二函数值时,所述参考数据点包括所述采集时间参数和所述第一函数值;当所述第一函数值不等于所述第二函数值时,所述参考数据点包括所述采集时间参数、所述第一函数值和所述第二函数值。10.一种用于...
【专利技术属性】
技术研发人员:李震国,罗戈,易珂,范伟,何诚,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。