数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34010907 阅读:17 留言:0更新日期:2022-07-02 14:33
本公开关于一种数据处理方法、装置、电子设备及存储介质,涉及网络技术领域。本公开中,根据电子设备的内存中的本次待存储数据,对待存储数据执行指定操作,以完成将待存储数据写入电子设备中磁盘的指定层级的操作。其中,指定操作包括:基于待存储数据,生成与当前定义的至少两个排序字符串表排序字符串表分组对应的至少两个排序字符串表文件,以将待存储数据以至少两个排序字符串表文件的形式存储;其中,任一排序字符串表文件对应的键名范围不超过排序字符串表文件对应的排序字符串表分组的分组范围;将排序字符串表文件划分至对应的排序字符串表分组。这样,一定程度上可以节省带宽,降低向磁盘的写入量,提高磁盘寿命。提高磁盘寿命。提高磁盘寿命。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质


[0001]本公开涉及网络
,尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,在进行数据键值存储的情况下,基于日志结构化合并树(LogStructured Merge Tree,LSM-Tree)的键值存储方式应用越来越广泛。其中,LSM-Tree是一种分层,有序,面向磁盘的数据结构,其核心思想是充分利用了磁盘批量的顺序写,从而确保数据写性能。
[0003]LSM-Tree的键值存储方式中,会划分多个层级(Level),将内存中的待存储数据以排序字符串表(Sorted Strings Table,SST)的形式存储至位于磁盘的这多个层级中。其中,一个排序字符串表中可以包括多个存储的键名-键值对(key-value)。相关技术中,多个层级中的排序字符串表进行合并(Compaction)时,需要让相邻两个层级之间存储的键名存在范围重叠的排序字符串表均参与合并。这样,为了实现合并,所需读出/写入的数据量会较多,进而造成带宽浪费,以及影响磁盘寿命的问题。

技术实现思路

[0004]本公开提供一种数据处理方法、装置、电子设备及存储介质,以至少解决相关技术中合并时所需读出/写入的数据量较多,进而造成带宽浪费,以及影响磁盘寿命的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供了一种数据处理方法,包括:
[0006]根据所述电子设备的内存中的本次待存储数据,对所述待存储数据执行指定操作,以完成将所述待存储数据写入所述电子设备中磁盘的指定层级的操作;
[0007]所述指定操作包括:基于所述待存储数据,生成与当前定义的至少两个排序字符串表分组对应的至少两个排序字符串表文件,以将所述待存储数据以所述至少两个排序字符串表文件的形式存储;其中,任一所述排序字符串表文件对应的键名范围不超过所述排序字符串表文件对应的所述排序字符串表分组的分组范围;将所述排序字符串表文件划分至对应的所述排序字符串表分组。
[0008]可选的,所述方法还包括:
[0009]根据所述待存储数据中键名的可用取值范围,设置初始排序字符串表分组的初始分组范围;
[0010]在所述初始排序字符串表分组内的总数据量不小于所述初始排序字符串表分组对应的第一数据量阈值的情况下,根据所述初始分组范围,将所述初始排序字符串表分组划分为所述至少两个排序字符串表分组;划分后的任一所述排序字符串表分组内的总数据量小于所述第一数据量阈值,划分后的所述排序字符串表分组的分组范围属于所述初始分组范围。
[0011]可选的,所述方法还包括:
[0012]将当前定义的任一所述排序字符串表分组作为目标分组,检测所述目标分组内的总数据量;
[0013]在所述总数据量不小于所述目标分组对应的第二数据量阈值的情况下,根据所述目标分组的分组范围,将所述目标分组划分为至少两个新的排序字符串表分组,并根据所述新的排序字符串表分组,更新当前定义的排序字符串表分组;所述新的排序字符串表分组内的总数据量小于所述第二数据量阈值,且所述新的排序字符串表分组的分组范围属于所述目标分组的分组范围。
[0014]可选的,所述根据所述目标分组的分组范围,将所述目标分组划分为至少两个新的排序字符串表分组,包括:
[0015]在所述目标分组的分组范围覆盖的键名中选择候选键名,并确定以所述候选键名划分所述目标分组的分组范围的情况下,属于划分得到的各分组范围的排序字符串表文件的数据量之和,以作为参照数据量;
[0016]根据各所述候选键名对应的参照数据量之间的差值以及各所述候选键名命中的排序字符串表文件的数量,从所述候选键名中选择分裂键名,并根据所述分裂键名将所述目标分组的分组范围划分为两个新的分组范围;一个新的分组范围对应的一个新的排序字符串表分组。
[0017]可选的,所述方法还包括:
[0018]在所述目标分组中存在待拆分排序字符串表文件的情况下,根据所述分裂键名将所述待拆分排序字符串表文件拆分为两个目标排序字符串表文件;不同目标排序字符串表文件属于不同的新的排序字符串表分组,所述待拆分排序字符串表文件为所述分裂键名命中的排序字符串表文件。
[0019]可选的,所述方法还包括:
[0020]在所述待拆分排序字符串表文件属于指定层级的情况下,将各所述目标排序字符串表文件合并至下一层级。
[0021]可选的,所述方法还包括:
[0022]在接收到新的待存储数据的情况下,根据所述新的待存储数据,生成与更新后的当前定义的排序字符串表分组对应的至少两个排序字符串表文件。
[0023]可选的,所述基于所述待存储数据,生成与当前定义的至少两个排序字符串表分组对应的至少两个排序字符串表文件,包括:
[0024]根据所述待存储数据确定待存储的键名

键值对;
[0025]将所述待存储的键名

键值对划分为M组键名

键值对;其中,所述M为当前定义的排序字符串表分组的数量,一组键名

键值对对应的键名范围属于一个排序字符串表分组的分组范围;
[0026]基于所述M组键名

键值对生成M个排序字符串表文件。
[0027]可选的,所述方法还包括:
[0028]响应于数据查找操作,确定所述数据查找操作所指示的待查找键名所属的分组范围,以作为待查找分组范围;
[0029]在所述待查找分组范围所指示的排序字符串表分组内的排序字符串表文件中,查
找所述待查找键名对应的键值。
[0030]根据本公开实施例的第二方面,提供了一种数据处理装置法,包括:
[0031]第一生成模块,被配置为执行根据所述电子设备的内存中的本次待存储数据,对所述待存储数据执行指定存储操作,以完成将所述待存储数据写入所述电子设备中磁盘的指定层级的操作;
[0032]所述指定存储操作包括:基于所述待存储数据,生成与当前定义的至少两个排序字符串表SST分组对应的至少两个SST排序字符串表文件,以将所述待存储数据以所述至少两个SST排序字符串表文件的形式存储;其中,任一所述SST排序字符串表文件对应的键名范围不超过所述SST排序字符串表文件对应的所述SST排序字符串表分组的分组范围;将所述SST排序字符串表文件划分至对应的所述SST排序字符串表分组。
[0033]可选的,所述装置还包括:
[0034]设定模块,被配置为执行根据所述待存储数据中键名的可用取值范围,设置初始排序字符串表分组的初始分组范围;
[0035]第一划分模块,被配置为执行在所述初始排序字符串表分组内的总数据量不小于所述初始排序字符串表分组对应的第一数据量阈值的情况下,根据所述初始分组范围,将所述初始排序字符串表分组划分为所述至少两个排序字符串表分组;划分后的任一所述排序字符串表分组内的总数据量小于所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于电子设备,所述方法包括:根据所述电子设备的内存中的本次待存储数据,对所述待存储数据执行指定操作,以完成将所述待存储数据写入所述电子设备中磁盘的指定层级的操作;所述指定操作包括:基于所述待存储数据,生成与当前定义的至少两个排序字符串表分组对应的至少两个排序字符串表文件,以将所述待存储数据以所述至少两个排序字符串表文件的形式存储;其中,任一所述排序字符串表文件对应的键名范围不超过所述排序字符串表文件对应的所述排序字符串表分组的分组范围;将所述排序字符串表文件划分至对应的所述排序字符串表分组。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述待存储数据中键名的可用取值范围,设置初始排序字符串表分组的初始分组范围;在所述初始排序字符串表分组内的总数据量不小于所述初始排序字符串表分组对应的第一数据量阈值的情况下,根据所述初始分组范围,将所述初始排序字符串表分组划分为所述至少两个排序字符串表分组;划分后的任一所述排序字符串表分组内的总数据量小于所述第一数据量阈值,划分后的所述排序字符串表分组的分组范围属于所述初始分组范围。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:将当前定义的任一所述排序字符串表分组作为目标分组,检测所述目标分组内的总数据量;在所述总数据量不小于所述目标分组对应的第二数据量阈值的情况下,根据所述目标分组的分组范围,将所述目标分组划分为至少两个新的排序字符串表分组,并根据所述新的排序字符串表分组,更新当前定义的排序字符串表分组;所述新的排序字符串表分组内的总数据量小于所述第二数据量阈值,且所述新的排序字符串表分组的分组范围属于所述目标分组的分组范围。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标分组的分组范围,将所述目标分组划分为至少两个新的排序字符串表分组,包括:在所述目标分组的分组范围覆盖的键名中选择候选键名,并确定以所述候选键名划分所述目标分组的分组范围的情况下,属于划分得到的各分组范围的排序字符串表文件的数据量之和,以作为参照数据量;根据各所述候选键名对应的...

【专利技术属性】
技术研发人员:贺伟吕信
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1