【技术实现步骤摘要】
一种基于聚类的时序数据压缩方法及系统
本专利技术属于时间序列数据压缩
,具体涉及一种基于聚类的时序数据压缩方法及系统。
技术介绍
时序数据在存储时,需占用大量储存空间,造成了存储资源的浪费。时序数据的压缩就是要把时间戳和值所组成的键值对(Key-ValuePair)进行压缩,降低在硬盘中或在内存中的占用空间,并且能够根据一定的算法复现原有数据。现有的时序数据压缩方法要么是有损压缩,即会丧失数据的精度;要么在压缩率上不尽人意,不能达到最小数据占用空间的目的,会造成一定的资源浪费。
技术实现思路
本专利技术所要解决的技术问题是针对上述现有技术的不足,提供一种基于聚类的时序数据压缩方法及系统,根据数据的分布情况将不同的时序数据分为不同的组别,在每个组别中各自确定相应的压缩算法,通过压缩算法的差异化来达到节约压缩空间的目的。为实现上述技术目的,本专利技术采取的技术方案为:一种基于聚类的时序数据压缩方法,包括以下步骤:(1)将所有的数据划分为若干数据块,并分割数据块中的若干数据 ...
【技术保护点】
1.一种基于聚类的时序数据压缩方法,其特征在于:包括以下步骤:/n(1)将所有的数据划分为若干数据块,并分割数据块中的若干数据串;/n(2)对每一个数据块,使用一种相似度度量方法和一种聚类算法,度量其中数据串之间的相似度,并基于数据串之间的相似度,对数据块中所有数据串聚类;/n(3)对每一个数据块,确定其中各类别数据串的最优压缩算法;/n(4)对每一个数据块,使用每个数据串类别中相应的最优压缩算法对该类别中的数据串进行压缩。/n
【技术特征摘要】
1.一种基于聚类的时序数据压缩方法,其特征在于:包括以下步骤:
(1)将所有的数据划分为若干数据块,并分割数据块中的若干数据串;
(2)对每一个数据块,使用一种相似度度量方法和一种聚类算法,度量其中数据串之间的相似度,并基于数据串之间的相似度,对数据块中所有数据串聚类;
(3)对每一个数据块,确定其中各类别数据串的最优压缩算法;
(4)对每一个数据块,使用每个数据串类别中相应的最优压缩算法对该类别中的数据串进行压缩。
2.根据权利要求1所述的一种基于聚类的时序数据压缩方法,其特征在于:
步骤(1)所述将所有的数据分为若干数据块,分割数据块中的若干数据串,包括:
将所有的数据按照某一个实际指标的采集过程划分为若干数据块;
按照小时的频率分割每一个数据块中的数据串。
3.根据权利要求1所述的一种基于聚类的时序数据压缩方法,其特征在于:
步骤(2)所述数据串之间的相似度度量方法包括DTW相似度和欧式距离。
4.根据权利要求1所述的一种基于聚类的时序数据压缩方法,其特征在于:
步骤(2)所述聚类算法包括DBSCAN算法和K-Means算法。
5.根据权利要求1所述的一种基于聚类的时序数据压缩方法,其特征在于:
步骤(2)所述聚类时,特征的选择方式包括使用原始数据作为特征、使用min-max归一化后的数据作为特征和使用滑动平均后的数据作为特征。
6.根据权利要求1所述的一种基于聚类的时序数据压缩方法,其特征在于:
步骤(3)所述对每一个...
【专利技术属性】
技术研发人员:戴峰,赵志强,
申请(专利权)人:南京天数智芯科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。