System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于自动化的列式存储自适应数据压缩系统技术方案_技高网

一种基于自动化的列式存储自适应数据压缩系统技术方案

技术编号:40908760 阅读:2 留言:0更新日期:2024-04-18 14:38
本发明专利技术公开了一种基于自动化的列存储自适应数据压缩系统,涉及数据压缩存储技术领域,其包括元数据管理模块、特征压缩算法集合库、全量压缩算法集合库和自适应压缩预测引擎。本发明专利技术通过对不同的数据进行分析处理得到数据结果集以及近似数据分布;根据数据特点判断从特征压缩算法集合库还是全量算法集合库中选择压缩算法;再根据自适应压缩预测引擎计算的压缩率预测值选定最终压缩算法对数据进行压缩落盘;最后根据历史处理的列数据特点进行训练,优化特征压缩算法集合库。本发明专利技术实现了数据压缩落盘时自动寻找合适的压缩数据的方法,进而更加有效的节省了存储空间,减少了面对多样化数据压缩的不确定性。

【技术实现步骤摘要】

本专利技术涉及数据压缩存储,更具体的说是涉及一种基于自动化的列式存储自适应数据压缩系统


技术介绍

1、针对大数据分析数据的需求不断增多,批量数据的处理以及查询不断增加的情况,为了简化数据建模的复杂性,越来越多的传统行数据库加入了列式存储的模式。在列式存储系统中,数据以列为单位进行存储,相同列中的数据类型相同或相似,不同列之间的数据类型可能不同。对于海量数据,列式存储和数据压缩是节省存储空间、加快磁盘读写速度、提升网络传输效率的重要手段。

2、现有公告号为cn107465413b的中国专利公告授权了一种自适应数据压缩系统及其方法,其包括:两两相互连接的时间控制模块,根据时间分片阈值对时间进行分片;热度判断模块,用于记录当前时间片各数据的访问频率,当时间片结束时,对所有数据按照访问频率进行热度判断;压缩及解压缩控制模块,用于当前时间片开始时,遍历所有数据。本专利技术克服了现有存储系统中压缩方法不灵活的缺点,使得数据在合理的压缩率被压缩,既能够提升空间利用率,又能够提升读写性能,使得系统因压缩产生的收益远大于因压缩产生的代价。

3、上述现有技术的方法虽然能够提升压缩方法的灵活性,但是仍然难以满足现有多样化数据的自适应压缩需求,并且对于每次同类型的数据都需要经过相同的判断模块,压缩速度受限,对比本专利技术提供一种自动化的列存储自适应数据压缩系统对数据进行分类并压缩。


技术实现思路

1、针对现有技术存在的不足,本专利技术的目的在于提供一种面料分条加工工艺及系统,该。

2、为实现上述目的,本专利技术提供了如下技术方案:。

3、作为本专利技术的进一步改进,。

4、作为本专利技术的进一步改进,。

5、作为本专利技术的进一步改进,。

6、作为本专利技术的进一步改进,。

7、作为本专利技术的进一步改进,。

8、作为本专利技术的进一步改进,。

9、作为本专利技术的进一步改进,。

10、作为本专利技术的进一步改进,。

11、作为本专利技术的进一步改进,。

12、本专利技术的有益效果:

13、通过。

本文档来自技高网...

【技术保护点】

1.一种基于自动化的列存储自适应数据压缩系统,其特征在于,包括:

2.根据权利要求1所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:所述元数据管理模块内保存有各数据表的字段信息、数据存储信息以及其他信息;所述元数据管理模块用于对数据进行分析处理,并对数据进行统计和分析,以得出数据结果集和近似数据分布。

3.根据权利要求1所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:对数据进行压缩处理的重要步骤如下:

4.根据权利要求3所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:所述步骤一和所述步骤二具体还包括:

5.根据权利要求3所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:所述步骤三中结合数据的分布类型以及所述近似分布特征选择匹配的压缩算法,所述压缩算法包括从所述特征压缩算法集合库或所述全量压缩算法集合库中匹配获得的。

6.根据权利要求5所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:匹配所述压缩算法具体还包括:

7.根据权利要求5所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:配置压缩率阈值,当所述数据特点属于所述特征压缩算法集合库时,获取所述特征压缩算法集合库中计算得到的压缩率预测值,比较所述压缩率预测值与所述压缩率阈值大小:

8.根据权利要求6所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:当所述数据特点不属于所述特征压缩算法集合库时,获取基于所述全量压缩算法集合库中所有压缩算法计算的压缩率预测值,识别压缩率预测值最小的压缩算法作为匹配算法对数据进行压缩落盘。

9.根据权利要求3所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:还包括训练所述特征压缩算法集合库,将从所述全量压缩算法集合库中匹配的压缩算法加入至所述特征压缩算法集合库中,并设置数量阈值,判断加入至所述特征压缩算法集合库中的压缩算法数量是否大于数量阈值,若大于所述数量阈值,将在特征压缩算法集合库中替换压缩率预测值最大的压缩算法。

10.根据权利要求1所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:对基于自动化列式存储自适应数据压缩后的数据进行解压缩的步骤如下:

...

【技术特征摘要】

1.一种基于自动化的列存储自适应数据压缩系统,其特征在于,包括:

2.根据权利要求1所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:所述元数据管理模块内保存有各数据表的字段信息、数据存储信息以及其他信息;所述元数据管理模块用于对数据进行分析处理,并对数据进行统计和分析,以得出数据结果集和近似数据分布。

3.根据权利要求1所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:对数据进行压缩处理的重要步骤如下:

4.根据权利要求3所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:所述步骤一和所述步骤二具体还包括:

5.根据权利要求3所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:所述步骤三中结合数据的分布类型以及所述近似分布特征选择匹配的压缩算法,所述压缩算法包括从所述特征压缩算法集合库或所述全量压缩算法集合库中匹配获得的。

6.根据权利要求5所述的一种基于自动化的列存储自适应数据压缩系统,其特征在于:匹配所述压缩算法具体还包括:

7.根据权利要求5所述的一种基...

【专利技术属性】
技术研发人员:谢斌刘伟徐晓海陈文强黄创光
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1