当前位置: 首页 > 专利查询>暨南大学专利>正文

一种分布式文件系统技术方案

技术编号:10571254 阅读:128 留言:0更新日期:2014-10-22 20:28
本发明专利技术涉及一种分布式文件系统。其包括:大文件存储服务器用于存储拆分后的大文件数据块,其中大文件为大于预设大小的文件;大文件元数据管理服务器,用于存储大文件的元数据、存储大文件存储服务器上大文件数据块的映射信息、管理大文件的命名空间和处理用户的请求信息;缓存服务器,用于存储小文件、小文件的元数据和缓存部分访问量大的大文件,其中,小文件指小于或等于预设大小的文件。本发明专利技术将大文件和小文件分开存储,大文件进行分块存储在大文件存储服务器上,小文件则存储在缓存服务器上,有效提高大小文件读写效率。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种分布式文件系统。其包括:大文件存储服务器用于存储拆分后的大文件数据块,其中大文件为大于预设大小的文件;大文件元数据管理服务器,用于存储大文件的元数据、存储大文件存储服务器上大文件数据块的映射信息、管理大文件的命名空间和处理用户的请求信息;缓存服务器,用于存储小文件、小文件的元数据和缓存部分访问量大的大文件,其中,小文件指小于或等于预设大小的文件。本专利技术将大文件和小文件分开存储,大文件进行分块存储在大文件存储服务器上,小文件则存储在缓存服务器上,有效提高大小文件读写效率。【专利说明】一种分布式文件系统
本专利技术涉及计算机存储
,更具体地,涉及一种分布式文件系统。
技术介绍
随着云计算的普及和完善,越来越多的用户将个人或企业数据储存在云端,这些 数据不仅包括大文件还包括小文件,这类数据具有数据量大、读取频率高于写入频率、需要 进行快速检索等特点。 目前,云服务提供商所使用的文件系统主要分为两类:网络文件系统(Network File System,NFS)和分布式文件系统(Hadoop Distributed File System,HDFS)。网络文 件系统指云服务提供商在服务器上进行虚拟分区,划分一块的磁盘空间给用户进行文件存 储,而用户每次读写文件都需要先登录远程虚拟服务器,在虚拟磁盘上进行文件读写,该类 系统的缺陷在于所有用户数据都保存在同一服务器上,如果服务器故障则对用户正常操作 产生重大影响。 分布式文件系统指在服务提供商利用多台服务器进行集群共同存储数据的文件 系统,用户在读写文件时需要发送请求,后台服务器处理用户请求并将请求结果发还给用 户,当前使用最广泛的分布式文件系统是HDFS,然而该系统具有两个主要缺陷:无法高效 存储大量的小文件和只有单一命名节点进行全局管理。为了改进这些缺陷后来的研究者 提出了多种文件系统,然而却具有各自的缺陷,如针对海量小文件存储提出了 TFS (Taobao File System),其将大量的小文件合并为一个大文件存储在数据服务器上,与HDFS相比该 方法没有明显的进步,仅仅将小文件整合成一个大文件数据块存储在数据服务器上,且增 加了一台备用命名服务器。而备用命名服务器不直接参与处理用户请求,只有当命名服务 器宕机后备用命名服务器才代替命名服务器处理用户请求。该方法缺陷在于命名服务器主 要负责处理用户请求,且存储空间是固定的,当数据量越来越大,其性能将成为限制TFS发 展的瓶颈。且当命名服务器严重故障导致数据丢失时,备用命名服务器需要一边与命名服 务器同步数据,一边响应用户的请求,此时备用命名服务器的负荷量过大。在MapR文件系 统中,将文件数据块和元数据同时保存在节点上,克服了单一命名服务器的瓶颈,但将大文 件和小文件同时存储在一起,浪费了存储资源且不便于管理。 当前的分布式文件系统存在无法有效存储小文件并解决单一管理节点的难题。用 户的文件数据各种各样,大小各不相同,云服务端的文件系统存储效率至关重要,也直接影 响着文件系统的故障响应及恢复速度。设计合理的分布式文件系统,能够快速地恢复文件 存储过程出现的故障,有极其重要的意义及实际应用价值。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷(不足),提供一种能有效存储小 文件的分布式文件系统。 为解决上述技术问题,本专利技术的技术方案如下: 一种分布式文件系统,包括: 大文件存储服务器用于存储拆分后的大文件数据块,其中大文件为大于预设大小的文 件; 大文件元数据管理服务器,用于存储大文件的元数据、存储大文件存储服务器上大文 件数据块的映射信息、管理大文件的命名空间和处理用户的请求信息; 缓存服务器,用于存储小文件、小文件的元数据和缓存部分访问量大的大文件,其中, 小文件为小于或等于预设大小的文件。 上述方案中,所述大文件存储服务器包括若干台,大文件元数据管理服务器包括 至少三台,缓存服务器包括至少三台。 上述方案中,至少三台大文件元数据管理服务器之间采用自适应方式存储大文件 元数据和大文件存储服务器上大文件数据块的映射信息以及承担用户请求的处理任务; 至少三台缓存服务器之间采用自适应、动态调整方式存储数据和处理用户请求。 上述方案中,任何大文件元数据及大文件存储服务器上大文件数据块的映射信息 存储在至少2台大文件元数据管理服务器上。 上述方案中,缓存服务器上设置有用于存储小文件元数据以及缓存服务器上所存 储大文件的元数据的元数据保存区、用于存储小文件的小文件保存区以及用于缓存部分访 问量大的大文件的大文件缓存区。 上述方案中,缓存服务器中设有计数器,用于实现大文件访问分类机制,具体实现 过程为:当用户通过该缓存服务器请求读写某个大文件时,该大文件访问量加1 ; 设置访问量阀值; 访问量高于访问量阀值的大文件称为经常访问大文件; 缓存服务器对于经常访问大文件依据访问量从高到低进行排序。 上述方案中,缓存服务器中存储部分访问量大的大文件的存储方式为: 当缓存服务器的缓存区空间足够时,缓存服务器将新大文件直接添加到大文件缓存区 并在元数据保存区中添加新的大文件的元数据; 当缓存服务器的大文件缓存区空间不足时,若缓存服务器需要添加一个新的用户经常 访问的大文件,则将大文件缓存区中访问量最低的经常访问大文件删除直到空间足够,接 着将新的大文件添加进大文件缓存区。 上述方案中,所述缓存服务器以永久性方式保存小文件元数据,以日志形式永久 存储小文件,以更新方式保存经常访问大文件元数据。 上述方案中,当其中一台大文件元数据管理服务器故障后,系统立刻引导用户请 求到其他大文件元数据管理服务器进行处理,直到故障的大文件元数据管理服务器恢复正 常; 当故障后恢复的大文件元数据管理服务器为空,则其他大文件元数据管理服务器与该 大文件元数据管理服务器同步故障前与其相同的大文件元数据及大文件数据块映射信息。 上述方案中,当其中一台缓存服务器故障后,系统立刻引导用户请求到其他缓存 服务器处理,直到故障的缓存服务器恢复正常; 若故障后恢复的缓存服务器为空,则其他缓存服务器与该缓存服务器同步故障前与该 缓存服务器相同的小文件及小文件元数据。 与现有技术相比,本专利技术技术方案的有益效果是: (1)本专利技术的分布式文件系统将大文件和小文件分开存储,大文件进行分块存储在大 文件存储服务器上,而小文件则存储在缓存服务器上。当用户需要读写小文件时直接访问 缓存服务器然后做出对应操作,这样读写效率远高于传统的先访问元数据管理服务器再访 问数据存储服务器的方式。而如果用户需要读写大文件先访问大文件元数据管理服务器, 在获得位置信息后访问对应的大文件存储服务器。此系统能有效保存大文件和小文件,并 提1? 了文件的读与效率。 (2)本专利技术的系统采用至少3台缓存服务器和至少3台大文件元数据管理服务器, 其中同层次各服务器之间互联,能有效突破传统单一管理服务器的瓶颈,当大量用户同时 访问少量数据时,系统通过自适应、动态调整方式可以对多台服务器进行负载均衡,避免出 现某台服务器因自身处理和存储能力不足但处理任务过重而本文档来自技高网
...
一种分布式文件系统

【技术保护点】
一种分布式文件系统,其特征在于,包括:大文件存储服务器用于存储拆分后的大文件数据块,其中大文件为大于预设大小的文件;大文件元数据管理服务器,用于存储大文件的元数据、存储大文件存储服务器上大文件数据块的映射信息、管理大文件的命名空间和处理用户的请求信息;缓存服务器,用于存储小文件、小文件的元数据和缓存部分访问量大的大文件,其中,小文件为小于或等于预设大小的文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:官全龙胡舜罗伟其翁健
申请(专利权)人:暨南大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1