一种文件处理方法、系统及相关设备技术方案

技术编号:24090764 阅读:69 留言:0更新日期:2020-05-09 07:58
本发明专利技术实施例提供了一种文件处理方法、系统及相关设备,用于提高存储空间利用率及文件管理效率。方法可包括:采用预设的哈希算法对目标文件的文件名称字符进行计算,得到目标文件的哈希值字符串;按照相同的读取规则从每个目标文件的哈希值字符串中读取第一预设数量的字符组成每个目标文件的聚合哈希值;将多个目标文件中聚合哈希值相同的目标文件以聚合的方式存储到同一个聚合归置组中;按照相同的读取规则从每个聚合归置组的聚合哈希值中读取第二预设数量的字符组成每个聚合归置组的归置哈希值;将归置哈希值相同的聚合归置组归类到同一个归置组中,采用预设的映射算法将归置组中的文件对象关联存储在同一个物理存储介质中。

A file processing method, system and related equipment

【技术实现步骤摘要】
一种文件处理方法、系统及相关设备
本专利技术涉及分布式数据存储
,尤其涉及一种文件处理方法、系统及相关设备。
技术介绍
在分布式文件系统中,常见的存储解决方案有Ceph数据存储系统,其存储过程如图1所示。集群从客户端获取到一个或多个对象(object),然后将这些object进行分组,分为不同pg(placementgroup,归置组,一个虚拟的对象集合),再根据一定的策略(例如crush算法)存储到集群的OSD(ObjectStorageDevice)节点中。现有的分布式文件系统中,文件的处理是在客户端,首先客户单需要从服务端拿到小文件的元数据中的映射关系,然后再发起对聚合对象的操作,需要传输小文件的元数据,浪费带宽资源。当pg分配的存储的空间达到上限需要扩容时,例如由一个磁盘扩容为两个磁盘,发生扩容分裂会导致聚合失效。聚合失效是指,同一个pg内的文件对象需要与原有的pg分离,导致无法基于原有的逻辑映射关系对文件对象进行操作。尤其是数量庞大的小文件聚合失效时,需要重新建立逻辑上的映射关系,费时费力,操作复杂,存储效率低。本文档来自技高网...

【技术保护点】
1.一种文件处理方法,其特征在于,运用于服务端,所述方法包括:/n获取需要存储的多个目标文件,所述目标文件占用的存储空间小于指定阈值;/n采用预设的哈希算法对所述目标文件的文件名称字符进行计算,得到所述目标文件的哈希值字符串;/n按照相同的读取规则从每个所述目标文件的哈希值字符串中读取第一预设数量的字符组成每个所述目标文件的聚合哈希值,所述第一预设数量为正整数;/n将所述多个目标文件中聚合哈希值相同的目标文件以聚合的方式存储到同一个聚合归置组中;/n按照相同的读取规则从每个聚合归置组的聚合哈希值中读取第二预设数量的字符组成每个聚合归置组的归置哈希值,所述第二预设数量为小于第一预设数量的正整数;...

【技术特征摘要】
1.一种文件处理方法,其特征在于,运用于服务端,所述方法包括:
获取需要存储的多个目标文件,所述目标文件占用的存储空间小于指定阈值;
采用预设的哈希算法对所述目标文件的文件名称字符进行计算,得到所述目标文件的哈希值字符串;
按照相同的读取规则从每个所述目标文件的哈希值字符串中读取第一预设数量的字符组成每个所述目标文件的聚合哈希值,所述第一预设数量为正整数;
将所述多个目标文件中聚合哈希值相同的目标文件以聚合的方式存储到同一个聚合归置组中;
按照相同的读取规则从每个聚合归置组的聚合哈希值中读取第二预设数量的字符组成每个聚合归置组的归置哈希值,所述第二预设数量为小于第一预设数量的正整数;
将归置哈希值相同的聚合归置组归类到同一个归置组中,采用预设的映射算法将归置组中的文件对象关联存储在同一个物理存储介质中。


2.根据权利要求1所述的方法,其特征在于,还包括:
在接收到扩容指令之后,将所述目标归置组拆分为至少两个新归置组,并将所述目标归置组的所有聚合归置组归置到所述新归置组中;
采用预设的映射算法将所述新归置组中的聚合归置组中的文件对象关联存储在同一个物理存储介质中。


3.根据权利要求2所述的方法,其特征在于,将所述目标归置组拆分为至少两个新归置组,包括:将所述目标归置组拆分为第三预设数量的新归置组,所述第三预设数量为所述目标归置组内聚合归置组的数量。


4.根据权利要求1所述的方法,其特征在于,还包括:
按照预设命名规则为所述聚合归置组中的聚合对象命名,所述预设命名规则包括:
为每个聚合对象分配唯一标识符;
以每个聚合对象所属的聚合哈希值、唯一标识符以及切分序列号拼接得到每个聚合对象的文件名称。


5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:
记录每个目标文件的元数据,所述元数据中包含文件名称、所属的聚合归置组的聚合对象名称、偏移地址以及文件长度。


6.根据权利要求5所述的方法,其特征在于,还包括:
接收文件查询请求,所述查询请求中包含所需读取的目标文件的文件名称;
根据所述目标文件的文件名称查询所述目标文件的元数据;...

【专利技术属性】
技术研发人员:张增冉宁韬陈岩
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1