【技术实现步骤摘要】
数据处理方法及电子装置
[0001]本申请涉及数据处理领域,具体而言,涉及一种数据处理方法及电子装置。
技术介绍
[0002]随着大数据时代到来,数据的爆发式增长对传统存储带来严峻挑战,分布式存储应“云”而生,能够提供海量、高可靠、高扩展、去中心化的存储服务。但是,在海量存储场景,分布式存储还面临诸多问题,例如,在非结构化数据存储过程中,小文件存储的空间浪费是所面临的一个重要问题。
[0003]为了解决小文件存储的空间浪费问题,相关技术中通过离线归并的方法实现对单个集群的小对象进行归并,具体地,在上传小对象的过程中记录日志文件,后台任务进而通过扫描特性日志匹配对象,进行文件归并。但是,该方法存在以下问题:1、归并过程中需要先扫描对应日志对象再进行数据读取,存在读惩罚,同时由于归并是离线进行的,在用户频繁写入场景会造成归并任务的累计,导致后续业务数据的写入性能降低或导致业务中断;2、在归并过程中以集群为单位进行小文件归并,若归并大对象中的小对象被删除,则会造成归并大对象的空间浪费;3、集群内的不同文件的访问程度存在一定 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:在将目标数据写入存储系统的过程中,确定所述目标数据对应的业务类型,其中,所述目标数据是占用存储空间小于预设存储空间的数据,所述业务类型包括第一类型和第二类型,所述第一类型对应的数据写入波动情况满足预设波动条件,所述第一类型对应的数据写入波动情况不满足所述预设波动条件;在所述目标数据对应的业务类型为所述第一类型的情况下,采用离线归并的方式对所述目标数据进行数据归并;在所述目标数据对应的业务类型为所述第二类型的情况下,采用在线归并的方式对所述目标数据进行数据归并。2.根据权利要求1所述的方法,其特征在于,在所述目标数据对应的业务类型为所述第二类型的情况下,采用在线归并的方式对所述目标数据进行数据归并包括:依次将每个所述目标数据写入所述存储系统中的第一存储介质,记录日志数据,并生成所述目标数据对应的元数据;在每次将所述目标数据写入所述存储系统中的第一存储介质时,将所述目标数据添加至归并模块中,并通过所述归并模块下发归并任务将所述目标数据存储至所述存储系统中的第二存储介质中,直至满足所述归并任务的设定条件,得到归并后的数据,其中,所述设定条件用于设定所述归并后的数据对应的目标数据的数量或所占存储空间大小;更新所述归并后的数据中的各个所述目标数据对应的元数据。3.根据权利要求2所述的方法,其特征在于,通过所述归并模块下发归并任务将所述目标数据存储至所述存储系统中的第二存储介质中包括:生成多个所述归并任务,并按照预设规则将所述目标数据加入多个所述归并任务中的一个;控制多个所述归并任务并发地将数据写入所述第二存储介质中。4.根据权利要求3所述的方法,其特征在于,控制多个所述归并任务并发地将数据写入所述第二存储介质中包括:在每个所述归并任务首次将数据写入所述第二存储介质中的情况下,将所述归并任务对应的状态从初始状态调整为执行状态;在每个所述归并任务将所有的数据写入所述第二存储介质中的情况下,将所述归并任务对应的状态从所述执行状态调整为完成状态,并更新所述归并任务对应的数据的元数据。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述归并任务对应的进程出现异常的情况下,重新执行未完成的所述归并任务。6.根据权利要求1所述的方法,其特征在于,在所述目标数据对应的业务类型为所述第一类型的情况下,采用离线归并的方式对所述目标数据进行数据归并包括:依次将每个所述目标数据写入所述存储系统中的第一存储介质,记录日志数据,并生成所述目标数据对应的元数据;在预设归并时间达到后,从所述日志数据中获取多个所述目标数据的存储位置,并生成归并任务,其中,多个所述目标数据的数...
【专利技术属性】
技术研发人员:卢行,周维,王豪迈,胥昕,
申请(专利权)人:星辰天合北京数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。