小文件处理方法及分布式系统技术方案

技术编号:20992516 阅读:25 留言:0更新日期:2019-04-29 22:31
本申请公开了小文件处理方法及系统,应用于分布式系统的存储节点组,所述存储节点组包括元数据服务器和与所述元数据服务器相连多个块数据服务器;所述小文件处理方法包括:所述元数据服务器确定所述存储节点组中小文件的访问量;对于访问量低的小文件减少小文件的备份数量;对于访问量高的小文件增加小文件的备份数量。本申请中元数据服务器确定所述存储节点组中小文件的访问量;对于访问量不同的小文件,区别对待访问量不同的小文件的占用空间,对于访问量低的小文件减少小文件的备份数量;对于访问量高的小文件增加小文件的备份数量,从而可以节省大量存储空间并提高分布式系统的访问效率。

Small File Processing Method and Distributed System

The application discloses a small file processing method and system, which is applied to a storage node group of a distributed system. The storage node group includes a metadata server and a plurality of block data servers connected with the metadata server. Reduce the number of backups of small files; increase the number of backups of small files for small files with high access. In this application, the metadata server determines the amount of access to small files in the storage node group; for small files with different accesses, the occupancy space of small files with different accesses is treated differently; for small files with low accesses, the number of backups of small files is reduced; for small files with high accesses, the number of backups of small files is increased, which can save a lot of storage space and increase the number of backups of small files. Access efficiency of distributed systems.

【技术实现步骤摘要】
小文件处理方法及分布式系统
本申请涉及通信
,尤其涉及小文件处理方法及分布式系统。
技术介绍
目前人类已经进入信息化时代,文件尤其是小文件正在呈现爆炸式增长,百万数量级的小文件称为海量小文件。目前采用分布式系统来存储海量小文件。用户终端可以借助于分布式系统访问小文件,可以理解的是,用户终端对不同小文件的访问量是不同的,所以分布式系统中访问量高的小文件经常被调用,而访问量低的小文件通常不被调用。为了防止数据损坏,通常要做冗余处理,而小文件目前的冗余方式,是完整文件的多份拷贝,这种方式占用了大量的存储空间。
技术实现思路
鉴于此,本申请提供一种分布式系统及文件处理方法,以采用分布式系统来存储海量小文件。为了实现上述目的,本申请提供了下述技术特征:一种小文件处理方法,应用于分布式系统的存储节点组,所述存储节点组包括元数据服务器和与所述元数据服务器相连多个块数据服务器;所述小文件处理方法包括:所述元数据服务器确定所述存储节点组中小文件的访问量;对于访问量低的小文件减少小文件的备份数量;对于访问量高的小文件增加小文件的备份数量。可选的,在分布式系统中向所述存储节点组存储小文件的情况下,向所述存储节点组中至少三个块数据服务器存储该小文件。可选的,所述对于访问量高的小文件增加小文件的备份数量,包括:所述元数据服务器向访问量高的小文件所属的一块数据服务器发送备份操作指令;所述块数据服务器响应于所述备份操作指令,向所述分布式系统中至少一个其它存储节点组发送该小文件,以供其它存储节点备份所述小文件。可选的,所述对于访问量低的小文件减少小文件的备份数量,包括:所述元数据服务器确定所述存储节点组中访问量低的多个小文件,从所述存储节点组中确定一块数据服务器,向所述块数据服务器发送用于对所述多个小文件进行合并操作的合并操作指令;所述块数据服务器响应于所述合并操作指令,从所述存储节点组中获取到所述多个小文件,合并所述多个小文件为大文件,按大文件存储方式存储所述大文件至所述存储节点组,并删除所述存储节点组中所述多个小文件。可选的,所述合并操作指令包括与所述多个文件一一对应的多个文件标识,每个文件标识对应该文件于所述存储节点组中的所有存储位置;则所述从所述存储节点组中获取到所述多个小文件,包括:所述块数据服务器针对每个文件标识执行下述步骤:基于文件标识对应所有存储位置中任一个存储位置,向该存储位置所属的块数据服务器发送获取指令以获取该存储位置处存储的小文件;则所述删除所述存储节点组中所述多个小文件,包括:所述块数据服务器针对每个文件标识执行下述步骤:基于文件标识对应的所有存储位置,向所有存储位置所属的块数据服务器发送删除指令,以使接收删除指令的块数据服务器删除小文件。可选的,所述元数据服务器设置有存储大文件所使用的预设磁盘存储方式匹配的数据块大小,条带分块数量,与预设磁盘存储方式匹配的多个块数据服务器的服务接口;所述块数据服务器按大文件存储方式存储所述大文件至所述存储节点组,包括:所述块数据服务器向所述元数据服务器请求存储大文件的块数据服务器的服务接口和条带分块数量;所述块数据服务器循环按数据块大小,从所述大文件读取条带分块数量个数据块,对条带分块数量个数据块计算校验位,通过服务接口存储数据块和校验位至块数据服务器;循环上个步骤直到大文件存储至多个块数据服务器中。可选的,所述预设磁盘存储方式包括RAID6,在RAID6中条带分块数量为N的情况下,所述块数据服务器获取到N+2个块数据服务器的服务接口,其中2个块数据服务器用于存储校验位;则所述块数据服务器按预设数据块大小循环从所述大文件读取条带分块数量个数据块,对条带分块数量个数据块计算校验位,通过服务接口存储数据块和校验位至块数据服务器,包括:所述块数据服务器按预设数据块大小,从所述大文件中连续读取N个条带数据块,并通过N个服务接口顺序存储N个条带数据块至N个块数据服务器中;按RAID6校验位计算方式,计算所述N个条带数据块的两个校验位,通过2个服务接口分别存储2个校验位至2个块数据服务器中。可选的,所述块数据服务器还用于确定所述数据块大小对应的计算空间是否大于当前可用内存空间;在所述数据块大小对应的计算空间大于当前可用内存空间情况下,则对条带分块数量个数据块计算校验位包括:将条带分块数量个数据块分别切分成小数据块,以使条带分块数量个数据块组成的条带形成多个小条带,分别计算多个小条带的两个校验位,将多个小条带的相同校验位合并为一大校验位。可选的,所述元数据服务器还用于在确定大文件中条带分块数量个数据块组成的条带中损坏不超过两个数据块的情况下,选择一块数据服务器,向该块数据服务器发送数据块迁移指令;该块数据服务器,用于响应所述数据块迁移指令,根据该条带已有完整数据块和两个校验位恢复已损坏数据块获得恢复数据块,存储所述恢复数据块至状态良好的块数据服务器。可选的,所述元数据服务器还用于在确定小文件损坏情况下,向其它存储该小文件的块数据服务器发送小文件迁移指令;该块数据服务器,用于响应于所述小文件迁移指令,向其它状态良好的块数据服务器发送小文件,以使其它块数据服务器备份所述小文件。一种小文件处理方法,应用于分布式系统中存储节点组,所述小文件处理方法包括:确定存储节点组中小文件的访问量;对于访问量低的小文件减少小文件的备份数量;对于访问量高的小文件增加小文件的备份数量。可选的,所述存储节点组对于小文件至少存储三份。可选的,所述对于访问量高的小文件增加小文件的备份数量,包括:对于访问量高的小文件,向所述分布式系统中其它存储节点备份所述小文件。可选的,所述对于访问量低的小文件减少小文件的备份数量,包括:确定所述存储节点组中访问量低的多个小文件;合并所述多个小文件为大文件;按大文件存储方式存储所述大文件至所述存储节点组;删除所述存储节点组中所述多个小文件。可选的,所述合并操作指令包括与所述多个文件一一对应的多个文件标识;则所述删除所述存储节点组中所述多个小文件,包括:对于每个文件标识,删除所述存储节点组中与文件标识对应的所有小文件。可选的,所述存储节点组设置有存储大文件所使用的预设磁盘存储方式匹配的数据块大小和条带分块数量;则所述按大文件存储方式存储所述大文件至所述存储节点组,包括:循环按数据块大小,从所述大文件读取条带分块数量个数据块,对条带分块数量个数据块计算校验位,存储数据块和校验位;循环上个步骤直到大文件存储完毕。可选的,所述对条带分块数量个数据块计算校验位包括:在所述数据块大小对应的计算空间大于当前可用内存空间情况下,将条带分块数量个数据块分别切分成小数据块,以使条带分块数量个数据块组成的条带形成多个小条带;分别计算多个小条带的两个校验位;合并多个小条带的相同的校验位,从而获得两个合并校验位。可选的,在确定存储节点组中大文件中一条带中损坏不超过两个数据块的情况下,根据该条带已有完整数据块和两个校验位恢复已损坏数据块获得恢复数据块;存储恢复数据块至所述存储节点组中状态良好的块数据服务器。可选的,在确定小文件损坏情况下,根据存储节点组中该小文件的备份,再备份至所述小文件至所述存储节点组中状态良好的数据服务器。一种分布式系统,包括:访问数据服务器中心,用于接收用户终端发送的上传请求本文档来自技高网...

【技术保护点】
1.一种小文件处理方法,其特征在于,应用于分布式系统的存储节点组,所述存储节点组包括元数据服务器和与所述元数据服务器相连多个块数据服务器;所述小文件处理方法包括:所述元数据服务器确定所述存储节点组中小文件的访问量;对于访问量低的小文件减少小文件的备份数量;对于访问量高的小文件增加小文件的备份数量。

【技术特征摘要】
1.一种小文件处理方法,其特征在于,应用于分布式系统的存储节点组,所述存储节点组包括元数据服务器和与所述元数据服务器相连多个块数据服务器;所述小文件处理方法包括:所述元数据服务器确定所述存储节点组中小文件的访问量;对于访问量低的小文件减少小文件的备份数量;对于访问量高的小文件增加小文件的备份数量。2.如权利要求1所述的方法,其特征在于,在分布式系统中向所述存储节点组存储小文件的情况下,向所述存储节点组中至少三个块数据服务器存储该小文件。3.如权利要求1或2所述的方法,其特征在于,所述对于访问量高的小文件增加小文件的备份数量,包括:所述元数据服务器向访问量高的小文件所属的一块数据服务器发送备份操作指令;所述块数据服务器响应于所述备份操作指令,向所述分布式系统中至少一个其它存储节点组发送该小文件,以供其它存储节点备份所述小文件。4.如权利要求1或2所述的方法,其特征在于,所述对于访问量低的小文件减少小文件的备份数量,包括:所述元数据服务器确定所述存储节点组中访问量低的多个小文件,从所述存储节点组中确定一块数据服务器,向所述块数据服务器发送用于对所述多个小文件进行合并操作的合并操作指令;所述块数据服务器响应于所述合并操作指令,从所述存储节点组中获取到所述多个小文件,合并所述多个小文件为大文件,按大文件存储方式存储所述大文件至所述存储节点组,并删除所述存储节点组中所述多个小文件。5.如权利要求4所述的方法,其特征在于,所述合并操作指令包括与所述多个文件一一对应的多个文件标识,每个文件标识对应该文件于所述存储节点组中的所有存储位置;则所述从所述存储节点组中获取到所述多个小文件,包括:所述块数据服务器针对每个文件标识执行下述步骤:基于文件标识对应所有存储位置中任一个存储位置,向该存储位置所属的块数据服务器发送获取指令以获取该存储位置处存储的小文件;则所述删除所述存储节点组中所述多个小文件,包括:所述块数据服务器针对每个文件标识执行下述步骤:基于文件标识对应的所有存储位置,向所有存储位置所属的块数据服务器发送删除指令,以使接收删除指令的块数据服务器删除小文件。6.如权利要求4所述的方法,其特征在于,所述元数据服务器设置有存储大文件所使用的预设磁盘存储方式匹配的数据块大小,条带分块数量,与预设磁盘存储方式匹配的多个块数据服务器的服务接口;所述块数据服务器按大文件存储方式存储所述大文件至所述存储节点组,包括:所述块数据服务器向所述元数据服务器请求存储大文件的块数据服务器的服务接口和条带分块数量;所述块数据服务器循环按数据块大小,从所述大文件读取条带分块数量个数据块,对条带分块数量个数据块计算校验位,通过服务接口存储数据块和校验位至块数据服务器;循环上个步骤直到大文件存储至多个块数据服务器中。7.如权利要求6所述的方法,其特征在于,所述预设磁盘存储方式包括RAID6,在RAID6中条带分块数量为N的情况下,所述块数据服务器获取到N+2个块数据服务器的服务接口,其中2个块数据服务器用于存储校验位;则所述块数据服务器按预设数据块大小循环从所述大文件读取条带分块数量个数据块,对条带分块数量个数据块计算校验位,通过服务接口存储数据块和校验位至块数据服务器,包括:所述块数据服务器按预设数据块大小,从所述大文件中连续读取N个条带数据块,并通过N个服务接口顺序存储N个条带数据块至N个块数据服务器中;按RAID6校验位计算方式,计算所述N个条带数据块的两个校验位,通过2个服务接口分别存储2个校验位至2个块数据服务器中。8.如权利要求7所述的方法,其特征在于,所述块数据服务器还用于确定所述数据块大小对应的计算空间是否大于当前可用内存空间;在所述数据块大小对应的计算空间大于当前可用内存空间情况下,则对条带分块数量个数据块计算校验位包括:将条带分块数量个数据块分别切分成小数据块,以使条带分块数量个数据块组成的条...

【专利技术属性】
技术研发人员:徐靖华
申请(专利权)人:海能达通信股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1