数据处理方法及装置、存储介质、电子设备制造方法及图纸

技术编号:30545308 阅读:24 留言:0更新日期:2021-10-30 13:23
本公开的实施方式涉及数据存储技术领域,更具体地,本公开的实施方式涉及数据处理方法及装置,存储介质和电子设备。所述方法包括:获取待处理数据集合,确定所述待处理数据集合的整体数据长度,以根据整体数据长度配置对应的n个条带;其中,n为正整数;提取所述待处理数据集合中各待处理文件的元数据,按预设规则编辑各所述元数据以生成所述n个条带对应的头部内容;基于所述元数据的编辑规则对各所述待处理文件的数据内容进行编辑以获取对象数据;将所述头部内容,以及所述对象数据写入所述n个条带。本公开的技术方案能够有效的提高元数据的数据读取效率,保证数据读取的速度。保证数据读取的速度。保证数据读取的速度。

【技术实现步骤摘要】
数据处理方法及装置、存储介质、电子设备


[0001]本公开的实施方式涉及数据存储
,更具体地,本公开的实施方式涉及数据处理方法及装置,存储介质和电子设备。

技术介绍

[0002]本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
[0003]在Ceph分布式存储系统中,为了兼顾存储空间利用率和数据可靠性,引入了纠删码(erasure coding,EC)技术,其存储空间利用率也在60%以上,比3副本的空间利用率提高了1倍以上(33.3%)。

技术实现思路

[0004]但是,在一些技术中,Ceph分布式存储系统在面对小文件的写入时,对象小文件的元数据信息存放成了一个棘手的问题,因为对象文件的元数据信息可以分析对象的空间利用率,元数据的存放不合理又会对文件的读写产生影响。目前的技术中,一般采用方案一:将对象文件的元数据信息放入ceph文件属性集的方式;方案二:将对象文件的元数据信息放入数据库中存储。然而,上述的方案一在对象文件读写删的时候,涉及到底层两次I/O操作(写数据一次,属性写入一次),会影响所有对象文件的读写延时;而上述的方案二需要额外的部署一套数据库,数据的一致性问题需要额外的保证,同时也存在键值太多会影响属性的获取进而影响对象文件的元数据信息提取的问题。
[0005]为此,非常需要一种改进的数据处理方法及装置、存储介质和电子设备,以提供一种能够保证数据读取性能,并提高Ceph系统存储空间的利用率。
[0006]在本上下文中,本专利技术的实施方式期望提供一种数据处理方法和装置、存储介质和电子设备。
[0007]根据本公开的一个方面,提供一种数据处理方法,包括:获取待处理数据集合,确定所述待处理数据集合的整体数据长度,以根据整体数据长度配置对应的n个条带;其中,n为正整数;
[0008]提取所述待处理数据集合中各待处理文件的元数据,按预设规则编辑各所述元数据以生成所述n个条带对应的头部内容;以及
[0009]基于所述元数据的编辑规则对各所述待处理文件的数据内容进行编辑以获取对象数据;
[0010]将所述头部内容,以及所述对象数据写入所述n个条带。
[0011]在本公开的一种示例性实施例中,所述提取所述待处理数据集合中各待处理文件的元数据,按预设规则编辑各所述元数据以生成所述n个条带对应的头部内容,包括:
[0012]为所述n个条带配置头部;
[0013]根据各待处理文件的数据长度进行排序,并根据文件排序结果按顺序编辑各所述
待处理文件对应的元数据以生成所述头部内容。
[0014]在本公开的一种示例性实施例中,所述为所述n个条带配置头部,包括:
[0015]在所述n个条带中的第一条带对应的第一磁盘空间配置所述头部的存储区域。
[0016]在本公开的一种示例性实施例中,所述方法还包括:
[0017]为所述头部配置头部文件标签。
[0018]在本公开的一种示例性实施例中,所述头部内容中,各所述元数据对应的数据长度相同。
[0019]在本公开的一种示例性实施例中,所述方法还包括:
[0020]确定所述待处理数据集合中所述待处理文件的当前文件数量;
[0021]在所述当前文件数量小于或等于所述头部对应的预设文件数量阈值时,根据文件排序结果对各所述待处理文件对应的元数据进行拼接编辑以获取所述头部内容。
[0022]在本公开的一种示例性实施例中,所述方法还包括:
[0023]将所述n个条带调整至对齐状态后,写入所述头部数据和所述对象数据。
[0024]在本公开的一种示例性实施例中,所述方法还包括:
[0025]在所述当前文件数量大于预设文件数量阈值时,为所述待处理数据集合中的各所述待处理文件配置至少一个头部;以及
[0026]基于配置的至少一个头部对所述待处理数据集合进行对应的拆分,并根据拆分结果配置对应的条带数量。
[0027]在本公开的一种示例性实施例中,所述基于所述元数据的编辑规则对各所述待处理文件的数据内容进行编辑以获取对象数据,包括:
[0028]基于所述文件排序结果对各所述待处理文件的数据内容进行拼接编辑以获取对象数据。
[0029]在本公开的一种示例性实施例中,所述将所述头部内容,以及所述对象数据写入所述n个条带,包括:
[0030]将所述头部内容写入所述n个条带中的第一条带对应的第一磁盘空间预留的头部的存储区域;以及
[0031]将所述对象数据写入所述n个条带中,并保持条带对齐。
[0032]在本公开的一种示例性实施例中,所述将所述头部内容,以及所述对象数据写入所述n个条带,包括:
[0033]将所述头部内容和所述对象数据同步写入所述n个条带。
[0034]在本公开的一种示例性实施例中,所述方法还包括:
[0035]为各所述条带对应的第一磁盘空间分别预留头部的存储区域。
[0036]在本公开的一种示例性实施例中,所述方法还包括:
[0037]在所述头部和所述n个条带存在剩余可用空间时,将更新的待处理文件对应的元数据和数据内容分别与所述头部内容、所述对象数据进行拼接,以用于将更新的待处理文件写入所述n个条带。
[0038]在本公开的一种示例性实施例中,所述方法还包括:
[0039]响应于第一触发指令,读取所述头部内容;
[0040]对所述头部内容进行解析以获取各数据内容对应的所述元数据。
[0041]在本公开的一种示例性实施例中,所述方法还包括:
[0042]响应于第二触发指令,读取所述头部内容;其中,所述第二触发指令包括待删除的数据内容;
[0043]对所述头部内容进行解析,并删除所述数据内容对应的元数据。
[0044]根据本公开的一个方面,提供一种数据处理装置,包括:待处理数据获取模块,用于获取待处理数据集合,确定所述待处理数据集合的整体数据长度,以根据整体数据长度配置对应的n个条带;其中,n为正整数;
[0045]头部内容处理模块,用于提取所述待处理数据集合中各待处理文件的元数据,按预设规则编辑各所述元数据以生成所述n个条带对应的头部内容;
[0046]对象数据处理模块,用于基于所述元数据的编辑规则对各所述待处理文件的数据内容进行编辑以获取对象数据;
[0047]写入执行模块,用于将所述头部内容,以及所述对象数据写入所述n个条带。
[0048]在本公开的一种示例性实施例中,所述头部内容处理模块包括:
[0049]头部配置模块,用于为所述n个条带配置头部;根据各待处理文件的数据长度进行排序,并根据文件排序结果按顺序编辑各所述待处理文件对应的元数据以生成所述头部内容。
[0050]在本公开的一种示例性实施例中,所述头部配置模块用于在所述n个条带中的第一条带对应的第一磁盘空间配置所述头部的存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理数据集合,确定所述待处理数据集合的整体数据长度,以根据整体数据长度配置对应的n个条带;其中,n为正整数;提取所述待处理数据集合中各待处理文件的元数据,按预设规则编辑各所述元数据以生成所述n个条带对应的头部内容;以及基于所述元数据的编辑规则对各所述待处理文件的数据内容进行编辑以获取对象数据;将所述头部内容,以及所述对象数据写入所述n个条带。2.根据权利要求1所述的数据处理方法,其特征在于,所述提取所述待处理数据集合中各待处理文件的元数据,按预设规则编辑各所述元数据以生成所述n个条带对应的头部内容,包括:为所述n个条带配置头部;根据各待处理文件的数据长度进行排序,并根据文件排序结果按顺序编辑各所述待处理文件对应的元数据以生成所述头部内容。3.根据权利要求2所述的数据处理方法,其特征在于,所述为所述n个条带配置头部,包括:在所述n个条带中的第一条带对应的第一磁盘空间配置所述头部的存储区域。4.根据权利要求2或3所述的数据处理方法,其特征在于,所述方法还包括:为所述头部配置头部文件标签。5.根据权利要求2或3所述的数据处理方法,其特征在于,所述头部内容中,各所述元数据对应的数据长度相同。6.根据权利要求2所述的数据处理方法,其特征在于,所述方法还包括:确定所述待...

【专利技术属性】
技术研发人员:俞乐勤张晓龙王盼陈谔李雪莉
申请(专利权)人:杭州朗和科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1