一种基于深度度量学习和数据流聚类的数据压缩方法技术

技术编号:40357325 阅读:25 留言:0更新日期:2024-02-09 14:43
本发明专利技术公开了一种基于深度度量学习和数据流聚类的数据压缩方法。在存储压缩领域,面临着海量多种类型数据的压缩挑战,通过快速将压缩友好的数据块聚集在一起可实现高效的压缩存储。首先将需要压缩的数据生成固定大小的切块,构建用于训练与测试的文件切块数据集,通过深度度量学习获得具有压缩友好相似性度量特性的表征空间,根据表征进行数据流实时聚类,合并同类的数据切块,实现数据的高压缩比压缩。同时,考虑到需要进行大规模聚类的时效复杂性,采用数据流聚类的方式,数据流聚类的过程对输入的流式数据,实时地维护和更新微簇,完成对大规模数据的实时聚类,使得在更大的数据集上有更快的聚类速度,实现对大规模存储数据的实时压缩。

【技术实现步骤摘要】

本专利技术属于存储数据压缩领域,更为具体地讲,涉及一种基于深度度量学习和数据流聚类的数据压缩方法来对存储数据切块进行实时聚类合并压缩。


技术介绍

1、在当今的大数据时代、云计算时代,各行各业都在产生海量的不同类型的数据,如何使用一种更快速的更高压缩比的压缩算法对这些数据进行压缩存储非常关键。本专利针对的问题是,如何在已有的一种压缩算法的基础上,例如zstd压缩算法,通过更优、更具有压缩模式组合的数据切块组合合并,使得压缩比更优。

2、根据已有的研究工作表明,对于数据块a和与之相似的数据块b,把数据块a与数据块b合并后放入zstd压缩算法进行压缩,可以获得比分别把数据块a和数据块b放入zstd压缩算法更高压缩比结果,即将相似的数据切块进行合并压缩能获得更高压缩比结果。因此,本专利需要解决的本质问题是,如何把n个数据块划分成一个个的组合,使得组合内数据块相似并进行合并压缩,本质上为一个组合划分优化问题。

3、传统组合划分优化问题,只要时间足够,资源足够,理论上是可以通过暴力检索所有可能的空间,进而获得最优的划分结果。而实际上,由于数据块本文档来自技高网...

【技术保护点】

1.一种基于深度度量学习和数据流聚类的数据压缩方法其特征在于,包括以下步骤:

2.根据权利要求1所述的深度度量学习和数据流聚类的数据压缩方法,其特征在于,步骤(3)中,所述的建立深度度量学习模型,和步骤(3)中,所述的模型训练:

【技术特征摘要】

1.一种基于深度度量学习和数据流聚类的数据压缩方法其特征在于,包括以下步骤:

2.根据权利要求1所述的深度度...

【专利技术属性】
技术研发人员:邵俊明何平富杨勤丽
申请(专利权)人:电子科技大学长三角研究院湖州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1