数据处理方法及电子装置制造方法及图纸

技术编号:31982904 阅读:30 留言:0更新日期:2022-01-20 01:57
本申请公开了一种数据处理方法及电子装置。该方法包括:在将目标数据写入存储系统的过程中,确定目标数据对应的业务类型,其中,目标数据是占用存储空间小于预设存储空间的数据,业务类型包括第一类型和第二类型,第一类型对应的数据写入波动情况满足预设波动条件,第一类型对应的数据写入波动情况不满足预设波动条件;在目标数据对应的业务类型为第一类型的情况下,采用离线归并的方式对目标数据进行数据归并;在目标数据对应的业务类型为第二类型的情况下,采用在线归并的方式对目标数据进行数据归并。解决了相关技术中在分布式存储场景下对小文件进行归并时,离线归并方法的归并效率较低,而在线归并方法影响业务数据的写入性能的问题。入性能的问题。入性能的问题。

【技术实现步骤摘要】
数据处理方法及电子装置


[0001]本申请涉及数据处理领域,具体而言,涉及一种数据处理方法及电子装置。

技术介绍

[0002]随着大数据时代到来,数据的爆发式增长对传统存储带来严峻挑战,分布式存储应“云”而生,能够提供海量、高可靠、高扩展、去中心化的存储服务。但是,在海量存储场景,分布式存储还面临诸多问题,例如,在非结构化数据存储过程中,小文件存储的空间浪费是所面临的一个重要问题。
[0003]为了解决小文件存储的空间浪费问题,相关技术中通过离线归并的方法实现对单个集群的小对象进行归并,具体地,在上传小对象的过程中记录日志文件,后台任务进而通过扫描特性日志匹配对象,进行文件归并。但是,该方法存在以下问题:1、归并过程中需要先扫描对应日志对象再进行数据读取,存在读惩罚,同时由于归并是离线进行的,在用户频繁写入场景会造成归并任务的累计,导致后续业务数据的写入性能降低或导致业务中断;2、在归并过程中以集群为单位进行小文件归并,若归并大对象中的小对象被删除,则会造成归并大对象的空间浪费;3、集群内的不同文件的访问程度存在一定的差异,小文件的读写操作不一致。
[0004]为了解决离线归并存在的问题,相关技术中还出现了在线归并技术,在线归并技术虽然能够通过实时归并避免写惩罚,但是,在用户业务场景为周期性写入,并且存在一定的峰值写入场景(用户要求极大化的性能写入的场景),实时归并会占用写入带宽,影响业务性能。
[0005]针对相关技术中在分布式存储场景下对小文件进行归并时,离线归并方法的归并效率较低,而在线归并方法影响业务数据的写入性能的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本申请提供一种数据处理方法及电子装置,以解决相关技术中在分布式存储场景下对小文件进行归并时,离线归并方法的归并效率较低,而在线归并方法影响业务数据的写入性能的问题。
[0007]根据本申请的一个方面,提供了一种数据处理方法。该方法包括:在将目标数据写入存储系统的过程中,确定目标数据对应的业务类型,其中,目标数据是占用存储空间小于预设存储空间的数据,业务类型包括第一类型和第二类型,第一类型对应的数据写入波动情况满足预设波动条件,第一类型对应的数据写入波动情况不满足预设波动条件;在目标数据对应的业务类型为第一类型的情况下,采用离线归并的方式对目标数据进行数据归并;在目标数据对应的业务类型为第二类型的情况下,采用在线归并的方式对目标数据进行数据归并。
[0008]可选地,在目标数据对应的业务类型为第二类型的情况下,采用在线归并的方式
对目标数据进行数据归并包括:依次将每个目标数据写入存储系统中的第一存储介质,记录日志数据,并生成目标数据对应的元数据;在每次将目标数据写入存储系统中的第一存储介质时,将目标数据添加至归并模块中,并通过归并模块下发归并任务将目标数据存储至存储系统中的第二存储介质中,直至满足归并任务的设定条件,得到归并后的数据,其中,设定条件用于设定归并后的数据对应的目标数据的数量或所占存储空间大小;更新归并后的数据中的各个目标数据对应的元数据。
[0009]可选地,通过归并模块下发归并任务将目标数据存储至存储系统中的第二存储介质中包括:生成多个归并任务,并按照预设规则将目标数据加入多个归并任务中的一个;控制多个归并任务并发地将数据写入第二存储介质中。
[0010]可选地,控制多个归并任务并发地将数据写入第二存储介质中包括:在每个归并任务首次将数据写入第二存储介质中的情况下,将归并任务对应的状态从初始状态调整为执行状态;在每个归并任务将所有的数据写入第二存储介质中的情况下,将归并任务对应的状态从执行状态调整为完成状态,并更新归并任务对应的数据的元数据。
[0011]可选地,该方法还包括:在归并任务对应的进程出现异常的情况下,重新执行未完成的归并任务。
[0012]可选地,在目标数据对应的业务类型为第一类型的情况下,采用离线归并的方式对目标数据进行数据归并包括:依次将每个目标数据写入存储系统中的第一存储介质,记录日志数据,并生成目标数据对应的元数据;在预设归并时间达到后,从日志数据中获取多个目标数据的存储位置,并生成归并任务,其中,多个目标数据的数量为预设数量,存储位置为第一存储介质中的存储地址,归并任务用于对存储位置对应存储的数据进行归并;根据归并任务对应的存储位置从第一存储介质中获取多个目标数据,并对多个目标数据进行归并,得到一组归并后的数据;将归并后的数据存储至存储系统中的第二存储介质,从第一存储介质中删除多个目标数据,并更新多个目标数据对应的元数据。
[0013]可选地,从第一存储介质中获取多个目标数据包括:判断目标数据写入第一存储介质的速率是否大于预设速率;在目标数据写入第一存储介质的速率大于预设速率的情况下,采用第一速度从第一存储介质中获取多个目标数据;在目标数据写入第一存储介质的速率小于等于预设速率的情况下,采用第二速度从第一存储介质中获取多个目标数据,其中,第二速度大于第一速度。
[0014]可选地,在将归并后的数据存储至存储系统中的第二存储介质之后,该方法还包括:在一组归并后的数据中存在数据缺失的情况下,计算数据缺失比例;在数据缺失比例大于预设比例的情况下,从第二存储介质中读取归并后的数据中的未缺失数据,并从第一存储介质中读取目标数量的目标数据,其中,目标数量为缺失数据的数量;对未缺失数据以及目标数量的目标数据进行归并,得到重新归并后的数据;从第二存储介质中删除未缺失数据,将重新归并后的数据存储至第二存储介质,从第一存储介质中删除目标数量的目标数据,并更新重新归并后的数据中的各个目标数据对应的元数据。
[0015]可选地,在将目标数据写入存储系统的过程中,确定目标数据对应的业务类型包括:在预设时间周期内,按照预设时间间隔获取目标数据的写入操作次数,得到多个写入操作次数值;确定预设时间周期内多个写入操作次数值的分布情况,并根据分布情况确定目标数据的数据写入波动情况是否满足预设波动条件;在目标数据的数据写入波动情况满足
预设波动条件的情况下,确定目标数据对应的业务类型为第一类型;在目标数据的数据写入波动情况不满足预设波动条件的情况下,确定目标数据对应的业务类型为第二类型。
[0016]根据本专利技术实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种数据处理方法。
[0017]通过本申请,采用以下步骤:在将目标数据写入存储系统的过程中,确定目标数据对应的业务类型,其中,目标数据是占用存储空间小于预设存储空间的数据,业务类型包括第一类型和第二类型,第一类型对应的数据写入波动情况满足预设波动条件,第一类型对应的数据写入波动情况不满足预设波动条件;在目标数据对应的业务类型为第一类型的情况下,采用离线归并的方式对目标数据进行数据归并;在目标数据对应的业务类型为第二类型的情况下,采用在线归并的方式对目标数据进行数据归并。解决本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:在将目标数据写入存储系统的过程中,确定所述目标数据对应的业务类型,其中,所述目标数据是占用存储空间小于预设存储空间的数据,所述业务类型包括第一类型和第二类型,所述第一类型对应的数据写入波动情况满足预设波动条件,所述第一类型对应的数据写入波动情况不满足所述预设波动条件;在所述目标数据对应的业务类型为所述第一类型的情况下,采用离线归并的方式对所述目标数据进行数据归并;在所述目标数据对应的业务类型为所述第二类型的情况下,采用在线归并的方式对所述目标数据进行数据归并。2.根据权利要求1所述的方法,其特征在于,在所述目标数据对应的业务类型为所述第二类型的情况下,采用在线归并的方式对所述目标数据进行数据归并包括:依次将每个所述目标数据写入所述存储系统中的第一存储介质,记录日志数据,并生成所述目标数据对应的元数据;在每次将所述目标数据写入所述存储系统中的第一存储介质时,将所述目标数据添加至归并模块中,并通过所述归并模块下发归并任务将所述目标数据存储至所述存储系统中的第二存储介质中,直至满足所述归并任务的设定条件,得到归并后的数据,其中,所述设定条件用于设定所述归并后的数据对应的目标数据的数量或所占存储空间大小;更新所述归并后的数据中的各个所述目标数据对应的元数据。3.根据权利要求2所述的方法,其特征在于,通过所述归并模块下发归并任务将所述目标数据存储至所述存储系统中的第二存储介质中包括:生成多个所述归并任务,并按照预设规则将所述目标数据加入多个所述归并任务中的一个;控制多个所述归并任务并发地将数据写入所述第二存储介质中。4.根据权利要求3所述的方法,其特征在于,控制多个所述归并任务并发地将数据写入所述第二存储介质中包括:在每个所述归并任务首次将数据写入所述第二存储介质中的情况下,将所述归并任务对应的状态从初始状态调整为执行状态;在每个所述归并任务将所有的数据写入所述第二存储介质中的情况下,将所述归并任务对应的状态从所述执行状态调整为完成状态,并更新所述归并任务对应的数据的元数据。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述归并任务对应的进程出现异常的情况下,重新执行未完成的所述归并任务。6.根据权利要求1所述的方法,其特征在于,在所述目标数据对应的业务类型为所述第一类型的情况下,采用离线归并的方式对所述目标数据进行数据归并包括:依次将每个所述目标数据写入所述存储系统中的第一存储介质,记录日志数据,并生成所述目标数据对应的元数据;在预设归并时间达到后,从所述日志数据中获取多个所述目标数据的存储位置,并生成归并任务,其中,多个所述目标数据的数...

【专利技术属性】
技术研发人员:卢行周维王豪迈胥昕
申请(专利权)人:星辰天合北京数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1