当前位置: 首页 > 专利查询>清华大学专利>正文

分布式文件系统及利用其存储数据和提供服务的方法技术方案

技术编号:5348917 阅读:194 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种分布式文件系统,包括:元数据服务器,用于保存所有用户标识符对应的数据服务器节点的列表以及该节点与其标识符的对应关系,维护每个节点的负载情况,并指导数据服务器执行负载均衡和冗余恢复的操作,负载情况以数据量来表征;数据服务器,用于存储用户的数据以及对应的用户的元数据,每个用户的数据存储在一个单独的目录下,并使用标识符对目录进行区分;文件系统客户端,用于形成本地文件目录,并将操作转发到相应的数据服务器;应用程序客户端,用于通过文件系统客户端所形成的文件目录使用户访问文件系统,从而为用户提供应用程序。本发明专利技术还提供了利用该系统存储数据和提供服务的方法。本发明专利技术提高了存储个人用户数据的效率。

【技术实现步骤摘要】

本专利技术涉及操作系统的文件系统领域,特别涉及服务海量个人用户分布式文件 系统及利用其存储个人用户数据和为个人用户提供服务的方法。
技术介绍
随着云计算技术和移动互联网技术的发展,越来越多的用户个人数据的存储位 置从本地设备(如台式机、上网本、智能手机等)转移到了远程服务端。这给用户的使 用带来了很多便利。首先,这样的存储模式给不同设备上的数据之间的同步创造了机会。用户的文 档、图片、音乐等数据可能是在台式机上创建或产生的,但也想在上网本或智能手机上 查看或修改。由于数据在远程服务端有一份始终可用的数据,应用程序可以通过某种协 议进行数据的自动同步,避免了用户手动复制数据带来的麻烦和问题。其次,这样的存储模式给数据的恢复创造了机会。当用户误删了本地的数据, 或者是丢失设备之后,由于远程服务端还保留了用户的数据,因此可以通过应用程序来 恢复数据。第三,这样的存储模式给不同用户之间的数据共享创造了机会。当某个用户想 给其他用户共享数据时,他可以将数据传到远程服务端,并标记为共享。其他经过授权 的用户可以访问这些被标记为共享的数据。上述的存储模式可以向用户提供以上这些使用数据的便利,大大提高了用户 数据的可用性,是移动互联网一个典型的应用模式。与此同时带来的一个问题是, 对于一个服务来说,要支持海量的用户就必须有一个大容量、高可靠、易扩展的文件 系统来提供存储。Google 公司 2003 年在 The ACM Symposium on Operating Systems Principles(SOSP)会议上发表的论文The Google File System中阐述了在Google公司内部使 用的分布式文件系统,具有大容量、高可靠、容错等特性,并针对搜索引擎领域大量索 引和缓存数据的特点进行了优化,为Google公司的业务提供了强大的支撑平台。它的问 题主要在于搜索引擎领域的数据特点是大量索引和缓存数据均为一次性写入,修改方式 主要以追加为主,在处理大量用户的个人数据需要频繁改写的情况时效率会比较低下。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是如何提高存储个人用户数据的效率。( 二 )技术方案为解决上述技术问题,本专利技术提供了一种分布式文件系统,包括元数据服务器,用于保存所有用户标识符对应的数据服务器节点的列表以及该 节点与其标识符的对应关系,维护每个节点的负载情况,并指导数据服务器执行负载均 衡和冗余恢复的操作,所述负载情况以数据量来表征;数据服务器,用于存储用户的数据以及对应的用户的元数据,其中每个用户的 数据存储在一个单独的目录下,并使用所述标识符对目录进行区分;文件系统客户端,用于形成本地的文件目录,并将操作转发到相应的数据服务 器;应用程序客户端,用于通过所述文件系统客户端所形成的文件目录使用户访问 文件系统,从而为用户提供应用程序。本专利技术还提供了一种利用上述分布式文件系统存储用户数据的方法,每个用户 的数据存储在一个单独的目录下,并使用用户标识符对目录进行区分。其中,所述用户为个人用户。本专利技术还提供了一种利用上述分布式文件系统为用户提供服务的方法,将所述 分布式文件系统提供给应用程序使用,再由该应用程序给用户提供服务。其中,所述用户为个人用户。(三)有益效果本专利技术对于海量用户数据的存储方式进行优化,将每个用户的个人数据存储在 一个单独的目录下,并利用用户标识符(User Identifier,以后简称用户ID)对这些目录进 行在数据服务器上的划分。这样可以节省元数据,提高效率。同时,当用户使用他的文 件时,由于文件都放在同一台数据服务器上,所以可以进行高效的预取和缓存,进一步 提高效率。分布式文件系统并不直接暴露给终端用户使用,而是提供给传统的应用程序 使用,再由这些服务程序给终端用户提供服务,这样把具体应用的语义定义交给了应用 程序来设计,简化了分布式文件系统的设计。另外,本专利技术的系统能够兼容现有的本地文件系统,提供虚拟文件系统(Virtual File System, VFS)的接口,方便现有应用程序能够很快移植到文件系统中,不需要太多 的额外工作。另一个优点是可以通过文件系统结构提供额外的功能,例如可以为每个用 户建立自己的索引,能够进行全文搜索等。还能够在一部分数据服务器节点坏掉的时 候,仍然保证系统的高可靠性。该系统无需管理员的参与,能够自动进行系统的配置工 作,自动实现数据均衡以及对错误数据的处理。附图说明图1是本专利技术实施例的系统结构示意图;图2显示了用户数据在DS上的组织形式。具体实施例方式下面结合附图和具体实施方式,对本专利技术做进一步说明。如图1所示,本专利技术提供的分布式文件系统包括元数据服务器(Metadata Server,MDS),用于保存所有用户标识符对应的数据服务器节点的列表以及该节点与其标识符的对应关系,维护每个节点的负载情况,并指 导数据服务器执行负载均衡和冗余恢复的操作,所述负载情况以数据量来表征;数据服务器(Data Server,DS),用于存储用户的数据以及对应的用户的元数 据,其中每个用户的数据存储在一个单独的目录下,并使用所述标识符对目录进行区分;文件系统客户端(File System Client,FSC),用于形成本地的文件目录,并将操作转发到相应的数据服务器;应用程序客户端(Application Client,AC),用于通过所述文件系统客户端所形成的文件目录使用户访问文件系统,从而为用户提供应用程序。上述用户优选为个人用户,个人用户的数据指非全局统一的数据。下面详细介绍上述系统的各个模块。MDS是整个系统的核心,它的主要工作是(1)响应FSC对于某一个用户的查 询请求;(2)向每一个DS节点发出心跳消息,并接收响应;⑶根据DS节点掉线的情 况,更新DataServerStatusList(DS节点信息的列表),并对相应的UserStatusList(所维护的用户信息)中的信息进行更新;(4)更新上述的UserStatusList,并对需要进行数据重分 布的用户发起数据重分布工作,根据响应的信息更新用户数据的状态结构;(5)处理对 于DS新节点的加入,新节点加入的时候需要先向MDS进行报到;(6)MDS在刚开始启 动的时候,询问每一个DS去构建本身内存中的数据结构;(7)对于很长时间不在线,并 且后来又重新上线的DS启动垃圾收集程序,删除过时的用户数据(移动到某一个垃圾目 录中);(8)如果发现某一个节点在一段相当长的时间里不在线,通过电子邮件或者其他 手段通知系统管理员,使得管理员可以通过一些技术手段来决定下一步的工作。DS用于存储用户数据,每个用户的数据以一个顶级目录的形式被分配到几台 DS上存储。DS本身是一个被动的设备,等待FSC的读写请求,等待MDS的各种命令, 并作出相应的回复或反应。本专利技术系统的客户端分为两个部分,一部分是FSC,它通过一些现有的技术手 段提供在本地文件系统上挂载本分布式文件系统,形成一个可以用操作系统本身提供的 编程接口进行访问的本地文件夹或者驱动器。另一部分是AC,它是向终端用户提供服务 的程序,通过FSC提供的文件系统接口来存储用户的个人数据。本系统中存储的数据在DS上的分布以用户为单本文档来自技高网
...

【技术保护点】
一种分布式文件系统,其特征在于,包括:元数据服务器,用于保存所有用户标识符对应的数据服务器节点的列表以及该节点与其标识符的对应关系,维护每个节点的负载情况,并通过向数据服务器发送控制指令来指导数据服务器执行负载均衡和冗余恢复的操作,所述负载情况以数据量来表征;数据服务器,用于存储用户的数据以及对应的用户的元数据,其中每个用户的数据存储在一个单独的目录下,并使用所述标识符对目录进行区分;文件系统客户端,用于形成本地的文件目录,并将文件读写操作转发到相应的数据服务器;应用程序客户端,用于通过所述文件系统客户端所形成的文件目录使用户访问文件系统,从而为用户提供应用程序。

【技术特征摘要】

【专利技术属性】
技术研发人员:郑纬民张尧学薛瑞尼韩文弢陈康陈文光
申请(专利权)人:清华大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1