数据处理方法、装置、计算设备及存储系统制造方法及图纸

技术编号：37157701 阅读：25 留言：0更新日期：2023-04-06 22:20

本申请公开了一种数据处理方法、装置、计算设备及存储系统，涉及数据压缩领域。该方法包括：计算设备获取到N个压缩后数据块，将N个压缩后数据块存入存储设备之前，依据N个压缩后数据块的访问特征将N个压缩后数据块划分为M个组，将M个组的数据进行合并得到合并后数据，合并后数据中同一组的数据连续，并存储合并后数据。如此，相对于计算设备根据I/O时间顺序将压缩后数据存入存储设备，本申请中计算设备依据表征一段时间内数据被改写的可能性的访问特征对压缩后数据进行分类，将具有相同或相似的访问特征的同一类的压缩后数据进行物理连续存储，减少回收块中的有效数据的占比，降低垃圾回收过程中的写放大。降低垃圾回收过程中的写放大。降低垃圾回收过程中的写放大。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、计算设备及存储系统

[0001]本申请涉及数据压缩领域，尤其涉及一种数据处理方法、装置、计算设备及存储系统。

技术介绍

[0002]随着云计算和大数据产业的繁荣，数据中心规模越大，则数据中心存储的数据也越多，更大的数据量和更长的存储周期意味着更高的存储成本。目前，计算设备可以利用压缩算法(如：LZ4、LZO或Snappy等)对数据进行压缩后再存储，从而减少待存储数据的数据量，节省相应的硬盘、节点、机架、场地和运维开销等。通常，计算设备根据输入输出(Input/Output，I/O)时间顺序将压缩后数据存入存储设备。存储设备在垃圾回收过程中以块粒度擦除数据时将有效数据进行搬移，如果擦除块中的有效数据占比高，导致提升了垃圾回收过程中的写放大。

技术实现思路

[0003]本申请提供了数据处理方法、装置、计算设备及存储系统，由此来降低垃圾回收过程中的写放大。
[0004]第一方面，提供了一种数据处理方法，该方法可以由计算设备执行，具体包括如下步骤：计算设备获取到N个压缩后数据块，将N个压缩...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，应用于计算设备，其特征在于，所述方法包括：获取N个压缩后数据块的访问特征，所述访问特征用于表征一段时间内数据被改写的可能性，N为大于或等于2的整数；根据每个所述压缩后数据块的访问特征将所述N个压缩后数据块划分为M个组，M为大于或等于1的整数，M小于N；将所述M个组的数据进行合并得到合并后数据，其中，在所述合并后数据中，同一组的数据连续；存储所述合并后数据至存储设备。2.根据权利要求1所述的方法，其特征在于，所述获取N个压缩后数据块的访问特征，包括：采集每个所述压缩后数据块的访问次数、访问时间间隔期望和访问时间间隔方差；根据每个所述压缩后数据块的访问次数、访问时间间隔期望和访问时间间隔方差得到每个所述压缩后数据块的访问特征。3.根据权利要求1或2所述的方法，其特征在于，所述根据每个所述压缩后数据块的访问特征将所述N个压缩后数据块划分为M个组，包括：将所述N个压缩后数据块的访问特征输入神经网络，以得到所述M个组。4.根据权利要求1
‑
3中任一项所述的方法，其特征在于，所述存储所述合并后数据至存储设备包括：将所述合并后数据存储至存储设备中一段物理地址连续的存储空间中。5.根据权利要求1
‑
4中任一项所述的方法，其特征在于，所述获取N个压缩后数据块的访问特征之前，所述方法还包括：根据计算设备的操作系统定义的数据块大小将待压缩数据划分为N个待压缩数据块；对所述N个待压缩数据块进行压缩得到所述N个压缩后数据块。6.一种数据处理装置，其特征在于，所述装置包括：特征采集模块，用于获取N个压缩后数据块的访问特征，所述访问特征用于表征一段时间内数据被改写的可能性，N为大于或等于2的整数；分组模块，用于根据每个所述压缩后数据块的访问特征将所述N个压缩后数据块划分为M个组，M为大于或等于1的整数，M小于N；合并模块，用于将所述M个组的数据进行合并得到合并后数据，其中，在所述合并后数据中，...

【专利技术属性】
技术研发人员：罗斯哲，董如良，朱洪德，孙勇，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人