一种文件系统的数据维护方法及系统技术方案

技术编号:10923766 阅读:122 留言:0更新日期:2015-01-18 23:54
本发明专利技术公开了一种文件系统的数据维护方法及系统,本发明专利技术涉及分布式文件系统技术领域,该方法包括将源数据中心的源数据备份到副本数据中心,作为该源数据的副本数据;根据该源数据中心的状态,选择由该源数据中心提供读写服务或由该副本数据中心提供该读写服务,若该源数据或该副本数据被修改,则获取对该源数据或该副本数据的修改记录,并生成日志文件;根据该日志文件对该源数据或该副本数据进行更新,以保证该源数据中心与该副本数据中心的数据的一致性。本发明专利技术能够有效提高数据中心数据可靠性,存储服务可用性的,为数据提供最终一致性语义。

【技术实现步骤摘要】

本专利技术属于分布式文件系统(distributed file system)
,特别是一种文件系统的数据维护方法及系统。 
技术介绍
随着信息技术的发展,全球的数据正在以爆炸式的方式增长,在2011年,全球的创建的数据已达1.8ZB,预计到达2020年全球的信息数据将增长50倍。在如此大的数据量的前提下,结合与big data(大数据)相关的技术,将能发现其中潜在的巨大价值,为进行大规模计算,能提供大数据存储,共享的分布式存储系统是必不可少的。 在计算集群和计算网格中,数据副本技术,在提高数据访问带宽和数据可靠性方面,都是一种非常有效和可行方法,副本机制主要会关注4个方面:副本放置、副本选择、副本一致性、复制调度,不同的系统在这几个方面出于性能的考虑会体现出不同的实现策略。 Amazon Dynamo(亚马逊的一种存储系统)是一个高度可用的key-value(键-值)存储系统,使用一致性哈希表的方式对数据进行分布,同时将数据副本也放到哈希表上进行管理,体现出良好的负载均衡,服务高可用和数据高可靠等特性,在副本的调度策略中使用NRW策略(即数据拥有N个副本,若能读R个副本则读成功,若写完成W个副本则写成功)保证每个副本的数量修改数量不少于W,且当节点发生故障时,通过既有的策略选取handoff(切换)节点暂时存放数据的副本,通过异步的方式在节点重启后,将数据副本回迁至原处。 Google file system(谷歌文件系统)的副本策略和数据负载均衡策略由master节点(主节点)负责,master节点会周期性的检查当前副本的分布情况,为了更好的利用磁盘空间和负载的均衡,master节点将会对副本进行迁 移操作,在副本一致性方面,GFS(谷歌文件系统)维护relaxed consistent model(弱一致性模型),进而能更好的支持其高可用性,体现在两个方面:客户端缓存数据副本的位置记录,提高数据访问速度也引入了读取过去副本数据的可能;保证所有的记录都能至少一次的被原子性追加上,大大提供了客户端的并发操作的性能。 当以上存储系统节点发生故障时,不同的系统会体现出不同的副本接管策略,在传统的集群副本技术中,副本服务器通常提供只读的功能,对数据的修改只发生在主服务器,这样的做法降低了维护整个集群数据一致性的开销,但却降低了系统的可用性,类似coda(一种分散式文件系统)这样的文件系统就使用离线更新的方式,即使在master节点崩溃的情况下,仍能在本地进行修改,提高系统的可用性,同时使用冲突向量的方式解决数据不一致的情况;对于去中心化的系统如Dynamo,使用改进的向量时钟算法确定数据版本和进行数据冲突解决,也能实现系统的高可用;GFS在应对master节点故障时,采用影子服务器的方式,确保master节点中的数据修改能尽快的同步到远端,保证在master节点崩溃时,备份服务器能在秒级时间内接管。 但是上述文件系统大部分是面向局域的网络环境设计的,而在广域的网络环境下,文件系统的设计就必须考虑其他的约束条件:低带宽、高延迟,异构存储平台,而数据中心的远程备份,实现数据中心级的灾难恢复又是必不可少的。基于这样一个观察,我们的提出的数据中心间的副本机制将能很好的满足数据中心级的容灾备份需求,且能极大地提高系统的可用性,是非常有吸引力的技术。 专利技术专利“一种分布式文件系统中的副本管理方法”公开了一种分布式文件系统中的副本管理方法,包括:在块节点向主节点重新注册时,根据块节点上副本的状态重新设置主节点上相应副本的状态;若块节点上的副本受损,则将主节点上相应副本设置为错误状态;若块节点上的副本将要移除,则将主节点上相应副本设置为即将移除正确状态;若块节点上的副本正常,则将主节点上相应副本设置为正确状态。该专利技术能在分布式文件系统中维护副本的一致性,但是该专利技术主要利用一个有限状态机实现集群中副本的状态和副本数量的管理方案,而本专利技术不适用状态机,主要完成的是针对主从副本的数据一致性的维护,通过周期性同步的方式维护最终一致的语义。 专利技术专利“基于对象集群文件系统的对象副本高效管理方法及系统”公开了一种基于对象集群文件系统的对象副本高效管理方法及系统,针对每个对象的关键信息生成对象副本DNA样本,进行汇总创建对象副本DNA样本数据库,并实时更新。当Client端发出对对象副本进行I/O请求时,根据I/O请求对应的对象副本的大小和所属目录层级信息的属性在对象副本DNA样本库里依据配对策略进行查找,找到最佳匹配的对象副本。该方法将大规模对象集群文件系统中的对象副本存取的管理与磁盘的性能相结合,即对象副本总是选取在磁盘寻道时间、旋转次数、能耗等方面最合适的存储器上进行访问,从而降低了访问延迟、节约网络带宽、提高系统性能,最终提高了并发访问处理能力,但该专利技术通过计算获得对象副本DNA,并使用该DNA进行对象数据的访问,本专利技术提供的是传统的文件目录树方式访问文件数据,不需要计算对象数据的DNA。 专利技术专利“一种数据写入、修改及恢复的方法、装置及服务器”公开了一种数据写入、修改及恢复的方法、装置及服务器。该专利技术实施例所提供的方案分别从对象服务器上的数据写入、修改以及恢复三个基本操作出发,通过一系列的方法保证同一个对象数据的多个副本同时存储在不同对象服务器上时的一致性,极大地降低了副本间数据不一致的可能性,从根本上防止了单个副本出现的情况,大大提高了分布式文件系统的可靠性,但该专利技术中对数据的修改需要以同步的方式在多个副本间进行更新,且进行更新确认后才返回,而本专利技术客户端操作只需要在主副本修改完成后即可返回,主副本中心和从副本中心是使用异步的方式进行一致性维护的。 
技术实现思路
针对现有技术不足,本专利技术的目的是提供一种针对跨越广域的提供数据中心间数据异地备份的主从副本机制的实现。 本专利技术提出了一种文件系统的数据维护方法,包括: 步骤S1,将源数据中心的源数据备份到副本数据中心,作为该源数据的副本数据; 步骤S2,根据该源数据中心的状态,选择由该源数据中心提供读写服务或由该副本数据中心提供该读写服务,若该源数据或该副本数据被修改,则获 取对该源数据或该副本数据的修改记录,并生成日志文件; 步骤S3,根据该日志文件对该源数据或该副本数据进行更新,以保证该源数据中心与该副本数据中心的数据的一致性。 所述的文件系统的数据维护方法,该步骤S2的具体步骤为: 步骤S21,当该源数据中心的服务器崩溃或该源数据中心的网络故障时,客户端向该副本数据中心发送接替服务请求; 步骤S22,若该副本数据中心提供该读写服务时,该源数据中心恢复正常,则由该源数据中心提供该读写服务,其中若该副本数据中心收到该源数据中心发送的数据包,则说明该源数据中心恢复正常。 所述的文件系统的数据维护方法,该数据包包括: 心跳包,用于该源数据中心检测该源数据中心到该副本数据中心的网络是否恢复正常; 重启包,用于该源数据中心的服务器重启时,该源数据中心通知该副本数据中心。 所述的本文档来自技高网
...
一种文件系统的数据维护方法及系统

【技术保护点】
一种文件系统的数据维护方法,其特征在于,包括:步骤S1,将源数据中心的源数据备份到副本数据中心,作为该源数据的副本数据;步骤S2,根据该源数据中心的状态,选择由该源数据中心提供读写服务或由该副本数据中心提供该读写服务,若该源数据或该副本数据被修改,则获取对该源数据或该副本数据的修改记录,并生成日志文件;步骤S3,根据该日志文件对该源数据或该副本数据进行更新,以保证该源数据中心与该副本数据中心的数据的一致性。

【技术特征摘要】
1.一种文件系统的数据维护方法,其特征在于,包括:
步骤S1,将源数据中心的源数据备份到副本数据中心,作为该源数据的
副本数据;
步骤S2,根据该源数据中心的状态,选择由该源数据中心提供读写服务
或由该副本数据中心提供该读写服务,若该源数据或该副本数据被修改,则获
取对该源数据或该副本数据的修改记录,并生成日志文件;
步骤S3,根据该日志文件对该源数据或该副本数据进行更新,以保证该
源数据中心与该副本数据中心的数据的一致性。
2.如权利要求1所述的文件系统的数据维护方法,其特征在于,该步骤
S2的具体步骤为:
步骤S21,当该源数据中心的服务器崩溃或该源数据中心的网络故障时,
客户端向该副本数据中心发送接替服务请求;
步骤S22,若该副本数据中心提供该读写服务时,该源数据中心恢复正常,
则由该源数据中心提供该读写服务,其中若该副本数据中心收到该源数据中心
发送的数据包,则说明该源数据中心恢复正常。
3.如权利要求2所述的文件系统的数据维护方法,其特征在于,该数据包
包括:
心跳包,用于该源数据中心检测该源数据中心到该副本数据中心的网络是
否恢复正常;
重启包,用于该源数据中心的服务器重启时,该源数据中心通知该副本数
据中心。
4.如权利要求1所述的文件系统的数据维护方法,其特征在于,该步骤
S3还包括:步骤S31,以异步增量方式定时将该源数据中心中的该源数据与该
副本数据中心中的该副本数据进行更新,以减少更新时的数据量,当该源数据
中心或该副本数据中心接收到同步数据时,将该同步数据与更新前该源数据中
心或该副本数据中心的数据进行冲突检测与冲突解决。
5.如权利要求1所述的文件系统的数据维护方法,其特征在于,还包括步
骤S4,多数据中心并发读操作:同时从该源数据中心与该副本数据中心读取

\t该源数据与该副本数据,以提高数据读取带宽,并缩短读取...

【专利技术属性】
技术研发人员:蔡杰明刘浏闫鹏飞刘国良马留英何文婷刘振军
申请(专利权)人:中国科学院计算技术研究所天津中科蓝鲸信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1