分布式文件系统进行数据处理的方法及该分布式文件系统技术方案

技术编号:9667991 阅读:110 留言:0更新日期:2014-02-14 06:30
本发明专利技术公开了分布式文件系统进行数据处理的方法及该分布式文件系统,其中,该系统包括节点服务器和多个元信息服务器;所述元信息服务器,用于在宕机重启后,向各节点服务器发送包含元服务器ID的数据块信息获取请求,接收来自节点服务器的文件ID、节点地址和数据块属性信息,在内存中存储文件ID与节点地址之间的第二映射关系,并在内存中对应节点地址存储数据块属性信息;所述节点服务器,用于接收来自元信息服务器的数据块信息获取请求,由元服务器ID确定是否存储有对应的文件,如果有则,将相应文件的文件ID、节点地址和数据块属性信息反馈给元信息服务器。本发明专利技术方案能够缩短宕机重启后的恢复时间。

【技术实现步骤摘要】
分布式文件系统进行数据处理的方法及该分布式文件系统
本专利技术涉及数据处理技术,尤其涉及分布式文件系统进行数据处理的方法及该分布式文件系统。
技术介绍
参见图1,为现有技术的分布式文件系统(DFS,Distributed File System)结构示意图,该系统包括客户端、多个数据节点以及单一的主节点。主节点在本地硬盘上存储文件路径与文件标识(ID,IDentity)之间的第一映射关系,且对应文件ID存储文件属性信息;并在内存中存储文件ID与节点地址之间的第二映射关系,且在内存中对应节点地址存储数据块属性信息。文件路径是展示给用户的关于某个文件的逻辑路径;实际地,每个文件被划分为多个数据块,分别存储在多个数据节点上。为了用户能够快速访问,在内存中会存放所有的信息,包括第一映射关系和文件属性信息,以及第二映射关系和数据块属性信息;其中第一映射关系和文件属性信息相对稳定且较重要,通常还保存在本地硬盘上。现有的分布式文件系统将数据分散存储在多个数据节点上,同时各数据节点还在本地硬盘上存储了数据的描述信息,包括文件ID和数据块属性信息。当客户端需要从数据节点下载数据时,先根据文件路径从主节点获取对应的文件ID和节点地址;再由节点地址向对应的数据节点下载与文件ID对应的数据。当当客户端需要向数据节点上传数据时,先根据文件路径从主节点获取对应的文件ID,再为该文件ID选取节点地址,向节点地址对应的数据节点上传数据。在实际运用中,会出现分布式文件系统宕机的情况;若主节点宕机,只有本地硬盘中的信息被保留下来,保存于内存的信息丢失,这部分信息可从各数据节点获取,以实现宕机恢复。然而,由于单一的主节点对应多个数据节点,宕机时,主节点需要从各数据节点获取信息,此过程为一对多的信息收集过程,其时间较长。通常地,对于千万量级文件的分布式文件系统,宕机恢复时间在一小时以上。
技术实现思路
本专利技术提供了一种分布式文件系统进行数据处理的方法,该方法能够缩短宕机重启后的恢复时间。本专利技术提供了一种分布式文件系统,该系统能够缩短宕机重启后的恢复时间。一种分布式文件系统进行数据处理的方法,该方法包括:元信息服务器宕机重启后,向各节点服务器发送包含元服务器ID的数据块信息获取请求;节点服务器由数据块信息获取请求包含的元服务器ID,确定是否存储有对应的文件数据,如果有,则将相应的文件ID、节点地址和数据块属性信息反馈给元信息服务器;元信息服务器接收来自节点服务器的文件ID、节点地址和数据块属性信息,在内存中存储文件ID与节点地址之间的第二映射关系,并在内存中对应节点地址存储数据块属性信息。一种分布式文件系统,该系统包括节点服务器和多个元信息服务器;所述元信息服务器,用于在宕机重启后,向各节点服务器发送包含元服务器ID的数据块信息获取请求,接收来自节点服务器的文件ID、节点地址和数据块属性信息,在内存中存储文件ID与节点地址之间的第二映射关系,并在内存中对应节点地址存储数据块属性信息;所述节点服务器,用于接收来自元信息服务器的数据块信息获取请求,由元服务器ID确定是否存储有对应的文件数据,如果有,则将相应的文件ID、节点地址和数据块属性信息反馈给元信息服务器。从上述方案可以看出,本专利技术在分布式文件系统中设置多个元信息服务器,当出现宕机重启时,由多个元信息服务器代替单一的主节点从节点服务器收集第二映射关系和数据块属性信息,从而,大大缩短了宕机恢复的时间。【附图说明】图1为现有分布式文件系统的结构示意图;图2为本专利技术分布式文件系统的结构示意图;图3为图2中元信息服务器的结构示意图;图4为本专利技术分布式文件系统进行数据处理的示意性流程图;图5为本专利技术基于分布式文件系统进行数据上传的流程图实例;图6为本专利技术基于分布式文件系统进行数据下载的流程图实例。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术进一步详细说明。现有技术中,当出现宕机时,单一的主节点需要从众多节点服务器收集信息,其时间较长。鉴于此,本专利技术在分布式文件系统中设置多个元信息服务器,由多个元信息服务器代替单一的主节点从节点服务器收集信息。参见图2,为本专利技术分布式系统的结构示意图,其包括节点服务器和多个元信息服务器,为简便说明,图中只示出了两个元信息服务器的情况;所述元信息服务器,用于在宕机重启后,向各节点服务器发送包含元服务器ID的数据块信息获取请求,接收来自节点服务器的文件ID、节点地址和数据块属性信息,在内存中存储文件ID与节点地址之间的第二映射关系,并在内存中对应节点地址存储数据块属性信息;所述节点服务器,用于接收来自元信息服务器的数据块信息获取请求,由元服务器ID确定是否存储有对应的文件数据,如果有,则将相应的文件ID、节点地址和数据块属性信息反馈给元信息服务器。可选地,系统还包括主节点,用于在本地硬盘上存储文件路径与文件ID之间的第一映射关系,并对应元服务器ID存储文件ID列表,还对应文件ID存储文件属性信息;主节点还用于接收来自元信息服务器的包含元服务器ID的查询请求,确定与元服务器ID对应的文件ID列表,以及与文件ID列表包含的文件ID相对应的文件属性信息,将确定的文件列表和文件属性信息反馈给元信息服务器;所述元信息服务器,还用于在宕机重启后,向主节点发送查询请求,接收主节点反馈的文件ID列表和文件属性信息。图2中的节点服务器对应图1中的数据节点。主节点存储的文件属性信息文件包括:文件路径、权限位、拥有者、备份数、数据块数、版本、创建时间、修改时间、访问时间等。文件路径是展示给用户的关于某个文件的逻辑路径;实际地,每个文件被划分为多个数据块,分别存储在多个数据节点上。本专利技术中,将第二映射关系和数据块属性信息保存在元信息服务器的内存中,内存中的信息以无状态方式存储;同时各节点服务器还在本地硬盘上存储了数据的描述信息,包括文件ID和数据块属性信息。当分布式文件系统出现宕机时,只有各设备硬盘中的信息被保留下来,而内存中的信息丢失,也就是,元信息服务器内存中保留的信息丢失;多个元信息服务器需要从各节点服务器获取丢失的这部分信息,以实现宕机恢复。可选地,所述元信息服务器包括文件信息获取单元和数据块信息获取单元和存储单元,具体参见图3所示的元信息服务器结构示意图;所述文件信息获取单元,用于在宕机重启后,向主节点发送查询请求,接收主节点反馈的文件ID列表和文件属性信息,发送给存储单元;所述数据块信息获取单元,用于在宕机重启后,向各节点服务器发送包含元服务器ID的数据块信息获取请求,接收来自节点服务器的文件ID、节点地址和数据块属性信息,发送给存储单元;所述存储单元,用于在内存中存储文件ID列表和文件属性信息,以及文件ID与节点地址之间的第二映射关系,并在内存中对应节点地址存储数据块属性信息。客户端可根据需要向节点服务器上传数据或下载数据,相应地,该系统还包括客户端,客户端包括上传单元、下载单元,下面分别进行说明。可选地,所述客户端包括上传单元,用于向主节点发送包含文件路径的数据上传请求,并接收主节点反馈的文件ID以及元服务器ID,为文件ID选取节点地址,向节点地址对应的节点服务器上传数据;并将文件ID与节点地址之间的第二映射关系以及本文档来自技高网
...

【技术保护点】
一种分布式文件系统,其特征在于,该系统包括节点服务器和多个元信息服务器;所述元信息服务器,用于在宕机重启后,向各节点服务器发送包含元服务器标识ID的数据块信息获取请求,接收来自节点服务器的文件ID、节点地址和数据块属性信息,在内存中存储文件ID与节点地址之间的第二映射关系,并在内存中对应节点地址存储数据块属性信息;所述节点服务器,用于接收来自元信息服务器的数据块信息获取请求,由元服务器ID确定是否存储有对应的文件数据,如果有,则将相应的文件ID、节点地址和数据块属性信息反馈给元信息服务器。

【技术特征摘要】
1.一种分布式文件系统,其特征在于,该系统包括节点服务器和多个元信息服务器; 所述元信息服务器,用于在宕机重启后,向各节点服务器发送包含元服务器标识ID的数据块信息获取请求,接收来自节点服务器的文件ID、节点地址和数据块属性信息,在内存中存储文件ID与节点地址之间的第二映射关系,并在内存中对应节点地址存储数据块属性信息; 所述节点服务器,用于接收来自元信息服务器的数据块信息获取请求,由元服务器ID确定是否存储有对应的文件数据,如果有,则将相应的文件ID、节点地址和数据块属性信息反馈给元信息服务器。2.如权利要求1所述的系统,其特征在于,该系统还包括主节点,用于在本地硬盘上存储文件路径与文件ID之间的第一映射关系,并对应元服务器ID存储文件ID列表,还对应文件ID存储文件属性信息;主节点还用于接收来自元信息服务器的包含元服务器ID的查询请求,确定与元服务器ID对应的文件ID列表,以及与文件ID列表包含的文件ID相对应的文件属性信息,将确定的文件ID列表和文件属性信息反馈给元信息服务器; 所述元信息服务器,还用于在宕机重启后,向主节点发送查询请求,接收主节点反馈的文件ID列表和文件属性信息。3.如权利要求2所述的系统,其特征在于,所述元信息服务器包括文件信息获取单元和数据块信息获取单元和存储单元; 所述文件信息获取单元,用于在宕机重启后,向主节点发送查询请求,接收主节点反馈的文件ID列表和文件属性信息,发送给存储单元; 所述数据块信息获取单元,用于在宕机重启后,向各节点服务器发送包含元服务器ID的数据块信息获取请求,接收来自节点服务器的文件ID、节点地址和数据块属性信息,发送给存储单元; 所述存储单元,用于在内存中存储文件ID列表和文件属性信息,以及文件ID与节点地址之间的第二映射关系,并在内存中对应节点地址存储数据块属性信息。4.如权利要求3所述的系统,其特征在于,该系统还包括客户端,所述客户端包括上传单元,用于向主节点发送包含文件路径的数据上传请求,并接收主节点反馈的文件ID以及元服务器ID,为文件ID选取节点地址,向节点地址对应的节点服务器上传数据;并将文件ID与节点地址之间的第二映射关系以及数据块属性信息发送给节点服务器和元服务器ID对应的元信息服务器的存储单元; 所述主节点,还用于接收数据上传请求,为数据上传请求包含的文件路径确定对应的文件ID,并确定与文件ID对应的元服务器ID,将确定的文件ID和元服务器ID反馈给客户端; 所述节点服务器,还用于在本地硬盘上存储接收的第二映射关系和数据块属性信息; 所述存储单元,还用于在内存中存储接收的第二映射关系和数据块属性信息。5.如权利要求3所述的系统,其特征在于,所述客户端还包括下载单元,用于向主节点发送包含文件路径的下载请求,并接收主节点反馈的文件ID和元服务器ID,向元服务器ID对应的元信息服务器发送包含文件ID的下载操作指示;并接收元信息服务器反馈的节点地址、文件属性信息和数据块属性信息,从与节点地址对应的节点服务器,获取与文件ID对应的数据;所述主节点,还用于接收下载请求,由下载请求包含的文件路径在第一映射关系中查询出对应的文件ID,并查询出与文件ID对应的元服务器ID,将文件ID和元服务器ID反馈给客户端; 所述元信息服务器还包括下载操作执行单元,用于由下...

【专利技术属性】
技术研发人员:李锐伍海君朱会灿邓大付邹永强董乘宇阙太富王磊杨绍鹏张书鑫赵大勇刘畅陈晓东张银锋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1