用于数据库的自适应数据压缩方法、系统、设备及产品技术方案

技术编号：43133685 阅读：16 留言：0更新日期：2024-10-29 17:39

本发明专利技术涉及数据库压缩技术领域，具体公开了用于数据库的自适应数据压缩方法、系统、设备及产品，方法包括：从数据库中读出数据；计算所述数据的数据量、数据重复率、数据重复模式和数据缺失率；将所述数据量、数据重复率、数据重复模式和数据缺失率输入预训练的机器学习模型，计算得到分类结果，确定最优压缩算法；在数据库内创建异步数据压缩线程，采用所述最优压缩算法压缩所述数据。本发明专利技术将数据的数据量、数据重复率、数据重复模式和数据缺失率作为分类特征，利用预训练的机器学习模型，根据四个分类特征，针对性地选择出合适的最优压缩算法，有助于减少数据库存储空间的占用，提高数据传输和查询的效率，降低存储成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据库压缩，尤其涉及一种用于数据库的自适应数据压缩方法、系统、设备及产品。

技术介绍

1、在当前的大数据时代，数据量的剧增已成为一个普遍现象。企业和组织每天都在生成、收集和处理前所未有数量的数据。这些数据来源广泛，包括客户信息、交易记录、实验数据等。随着数据量的急速膨胀，如何有效地存储、管理和处理这些数据成了一个迫切需要解决的问题。在这种背景下，有效的用于数据库的自适应数据压缩技术显得尤为关键，它对于提升数据库性能、降低存储成本和加速查询过程具有重要意义。

2、传统的静态数据压缩算法在处理静态或稳定的数据时往往表现良好，但是对于实时动态更新的数据库，静态压缩方法可能导致频繁的解压缩操作，降低数据处理的效率。针对传统数据压缩方法存在的问题，基于机器学习的用于数据库的自适应数据压缩技术应运而生。这种技术利用机器学习算法和自适应策略，根据数据库中的数据的特征和变化情况动态调整压缩策略，以实现更高效的数据存储和查询。

3、如申请公布号cn116701411a的中国专利技术专利公开了一种多领域数据归档方法、装置及设备，方法包括：接收需要存档的原始数据，并通过预先构建的数据分类模型对原始数据进行分类，确定原始数据的数据类别；根据原始数据以及原始数据的数据格式类型，确定原始数据的数据类型；根据数据类型以及预先设定的多约束目标确定原始数据的最优压缩算法，通过压缩算法对原始数据进行压缩，生成压缩数据。所述数据类型包括图像数据、视频数据、文本数据、语音数据。该专利根据数据的类型选择压缩算法。

4、又

5、但是，数据库中常常存在大量重复的数据，例如各种日志记录、交易中的订单数据、多版本数据等。不同数据间的数据量、数据重复率、数据重复模式和数据缺失率有较大区别，采用同一压缩算法显然不能应对这些数据特征的差异，而随着数据的不断更新，同一数据的数据量、数据重复率、数据重复模式和数据缺失率有所改变，已采用的压缩算法也可能不再适合，这些都会导致出现存储空间占用过大、数据查询性能不佳的问题。上述的数据压缩方法也无法有效应对此种情况。

技术实现思路

1、本专利技术旨在解决数据库采用的压缩算法不合理所导致的存储空间占用过大、数据查询性能不佳的问题。为此，本专利技术提供一种用于数据库的自适应数据压缩方法、系统、设备及产品，将数据的数据量、数据重复率、数据重复模式和数据缺失率作为分类特征，利用预训练的机器学习模型，根据四个分类特征，针对性地选择出合适的最优压缩算法，有助于减少数据库存储空间的占用，提高数据传输和查询的效率，降低存储成本。

2、本专利技术提供一种用于数据库的自适应数据压缩方法，采用的技术方案如下：包括：

3、从数据库中读出数据；

4、计算所述数据的数据量、数据重复率、数据重复模式和数据缺失率；

5、将所述数据量、数据重复率、数据重复模式和数据缺失率输入预训练的机器学习模型，计算得到分类结果，确定最优压缩算法；

6、在数据库内创建异步数据压缩线程，采用所述最优压缩算法压缩所述数据。

7、进一步的，根据所述数据的数据快照从所述数据库中读出所述数据。

8、进一步的，所述机器学习模型采用xgboost（extreme gradient boosting）决策树模型。

9、进一步的，所述分类结果包括lzw压缩算法、rle压缩算法、空值压缩算法、lz77压缩算法和差分压缩算法。

10、进一步的，采用所述最优压缩算法压缩所述数据的过程为：

11、所述异步数据压缩线程创建所述数据的副本，采用所述最优压缩算法压缩所述数据，得到压缩数据；将所述副本的变更同步到所述压缩数据中，删除所述副本。

12、进一步的，所述副本的变更为数据压缩过程中，所述副本的内容的增、删和改。

13、本专利技术还提供用于数据库的自适应数据压缩系统，采用的技术方案如下：包括：依次连接的数据读出模块、特征提取模块、压缩算法确定模块和数据压缩模块；

14、所述数据读出模块，用于从数据库中读出数据；

15、所述特征提取模块，用于计算所述数据的数据量、数据重复率、数据重复模式和数据缺失率；

16、所述压缩算法确定模块，用于将所述数据量、数据重复率、数据重复模式和数据缺失率输入预训练的机器学习模型，计算得到分类结果，确定最优压缩算法；

17、所述数据压缩模块，用于在数据库内创建异步数据压缩线程，采用所述最优压缩算法压缩所述数据。

18、本专利技术还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的用于数据库的自适应数据压缩方法。

19、本专利技术还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的用于数据库的自适应数据压缩方法。

20、本专利技术实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：

21、1.本专利技术采用xgboost算法分析数据库中的数据的特征，选用数据量、数据重复率、数据重复模式和数据缺失率作为分类特征，构建xgboost决策树模型来预测数据的最优压缩算法，并利用最优压缩算法压缩数据，而达到更高的压缩率，有助于最大程度地减少存储空间占用，提高数据传输和查询的效率，降低存储成本。

22、2.本专利技术在数据压缩时，由数据库内的异步数据压缩线程先创建所述数据的副本，再执行数据的压缩。数据压缩过程中出现的查询操作或者写入操作等外部操作对数据副本进行，从而避免读写操作和数据压缩的冲突，提高压缩效率。

23、3.本专利技术既适用于新数据的压缩，又适用于已压缩数据的重新压缩，在压缩数据的内容有较大改变，其数据量、数据重复率、数据重复模式和数据缺失率有一定变化时，利用本专利技术预测出更适合的压缩算法，对数据进行重新压缩，有助于进一步减少数据库存储空间的占用，提高数据传输和查询的效率，降低存储成本。

24、本专利技术的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本专利技术的实践了解到。

本文档来自技高网...

【技术保护点】

1.用于数据库的自适应数据压缩方法，其特征在于，包括：

2.如权利要求1所述的用于数据库的自适应数据压缩方法，其特征在于，根据所述数据的数据快照从所述数据库中读出所述数据。

3.如权利要求1所述的用于数据库的自适应数据压缩方法，其特征在于，所述机器学习模型采用XGBoost决策树模型。

4.如权利要求1或3所述的用于数据库的自适应数据压缩方法，其特征在于，所述分类结果包括LZW压缩算法、RLE压缩算法、空值压缩算法、LZ77压缩算法和差分压缩算法。

5.如权利要求1至3任一项所述的用于数据库的自适应数据压缩方法，其特征在于，采用所述最优压缩算法压缩所述数据的过程为：

6.如权利要求5所述的用于数据库的自适应数据压缩方法，其特征在于，所述副本的变更为数据压缩过程中，所述副本的内容的增、删和改。

7.用于数据库的自适应数据压缩系统，其特征在于，用以执行如权利要求1至6任一项所述的用于数据库的自适应数据压缩方法，包括：依次连接的数据读出模块、特征提取模块、压缩算法确定模块和数据压缩模块；

8.一种计算机

9.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的用于数据库的自适应数据压缩方法。

...

【技术特征摘要】

1.用于数据库的自适应数据压缩方法，其特征在于，包括：

2.如权利要求1所述的用于数据库的自适应数据压缩方法，其特征在于，根据所述数据的数据快照从所述数据库中读出所述数据。

3.如权利要求1所述的用于数据库的自适应数据压缩方法，其特征在于，所述机器学习模型采用xgboost决策树模型。

4.如权利要求1或3所述的用于数据库的自适应数据压缩方法，其特征在于，所述分类结果包括lzw压缩算法、rle压缩算法、空值压缩算法、lz77压缩算法和差分压缩算法。

5.如权利要求1至3任一项所述的用于数据库的自适应数据压缩方法，其特征在于，采用所述最优压缩算法压缩所述数据的过程为：

6.如权利要求5所述的...

【专利技术属性】
技术研发人员：李国龙，
申请(专利权)人：江苏华库数据技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人