一种异构存储环境下多版本文件视图管理方法和装置制造方法及图纸

技术编号:18525985 阅读:74 留言:0更新日期:2018-07-25 12:46
本发明专利技术涉及一种异构存储环境下多版本文件视图管理方法和装置。该方法包括:抽取异构存储环境下的多版本数据的元数据信息,利用元数据信息形成关系表结构,并利用关系型数据库对元数据进行集中存储;通过逻辑卷整合分布在不同存储位置的多版本数据,实现介质无关的多版本数据的管理与组织;利用SQL语法规则实现对元数据的访问控制与选择过滤,并在文件视图中以目录树的形式展示和管理异构存储环境下的多版本数据。本发明专利技术能够针对本地存储、云存储等异构存储环境,针对增量备份、差量备份、全量备份等不同备份策略,实现高性能的多版本文件视图管理。

【技术实现步骤摘要】
一种异构存储环境下多版本文件视图管理方法和装置
本专利技术属于分布存储与容灾备份领域,具体涉及的是一种异构存储环境下多版本文件视图管理方法和装置。
技术介绍
随着大数据技术与应用的迅猛发展,数据已成为各个行业中最为宝贵的资源。数据的损毁将导致不可估量的损失。例如,2017年五月份,WannaCry勒索病毒席卷全球,超过一百多个国家和地区被攻击和感染,大量企业、校园和医疗机构受到了病毒感染。该病毒将受感染用户的数据进行加密并勒索,致全球经济损失高达550亿元。数据容灾技术已经成为防止人为操作失误、病毒攻击、系统故障导致的数据丢失或毁坏的最后一道防线。随着云存储技术的深入发展,越来越多的备份业务开始通过整合本地存储资源与云存储资源,形成一个即满足数据本地化快速读写,同时支持备份数据的云化存储的异构存储环境。然而如何有效整合分布在不同存储位置、异构存储资源的多版本备份数据、为用户提供统一、便捷、灵活的多版本文件视图管理方法,成为云存储环境下,多版本备份数据管理面临的挑战问题。在数据多版本管理方面,目前主要有三个研究方向:1)多版本索引技术:MultiversionB-tree(OhlerT,OhlerT,OhlerT,etal.AnasymptoticallyoptimalmultiversionB-tree[J].VldbJournal,1996,5(4):264-275.)利用用户自定义的key和时间戳来唯一确定文件的版本。由于MVBTree是partiallypersistent结构,因此只能在当前key基础上进行更新或删除的操作,无法提供任意历史时刻,统一的文件视图功能,缺少面向历史任意时刻下完整文件tree的管理方法。2)多版本文件系统:CVFS(SoulesCAN,GoodsonGR,StrunkJD,etal.MetadataEfficiencyinVersioningFileSystems[C]//UsenixConferenceonFile&StorageTechnologies.2003:43--58.)利用Journal-basedmetadata管理元数据和目录索引结构,极大的减少了元数据的存储量。Ext3cow(PetersonZ,BurnsR.Ext3cow:atime-shiftingfilesystemforregulatorycompliance[J].AcmTransactionsonStorage,2005,1(2):190-212.)文件系统是在ext3的基础上完成的,提供了快照功能和多版本文件控制功能。但是这两种技术必须在特定的文件系统中才能起到多版本文件控制,不适合应用于多个文件系统组成的异构资源存储环境(如本地文件系统ext3+云存储系统GlusterFS)。文献“BhattacherjeeS,ChavanA,HuangS,etal.Principlesofdatasetversioning:exploringtherecreation/storagetradeoff[J].ProceedingsoftheVldbEndowment,2015,8(12):1346-1357.”进一步提出了一种平衡存储空间和增量文件恢复时间的算法,但是该算法只是处理离线、静态的数据集,不能在线实时处理数据集,因此无法为增量备份提供快速的元数据管理组织方法。3)云环境下的多版本管理技术:CloudVS(TangCP,LeePPC,WongTY.TunableVersionControlSystemforVirtualMachinesinanOpen-SourceCloud[J].IEEETransactionsonServicesComputing,2015,8(1):155-168.)是在云环境下对虚拟机的版本控制和管理系统,利用数据去重技术产生增量的快照,然后将此增量快照传输到存储节点并生成新的版本。虽然每次传输都是增量快照文件,降低了传输的数量量,但是每次计算增量文件都需要很长时间。综上,目前的多版本技术提供单一数据项或单一文件的历史版本管理与控制方法,但是缺少面向整个文件目录树的文件视图版本管理技术,缺少针对历史版本灵活的访问控制与版本筛选技术,因此无法为异构存储环境下的多版本数据提供有效的文件视图管理与灵活的访问接口。
技术实现思路
本专利技术的目的在于提出一种多版本文件视图管理方法和装置,可以针对异构存储环境(例如本地存储+云存储),针对不同备份策略(包括增量备份、差量备份、全量备份),实现高性能的多版本文件视图管理。本专利技术采用的技术方案如下:一种异构存储环境下多版本文件视图管理方法,包括以下步骤:抽取异构存储环境下的多版本数据的元数据信息,利用元数据信息形成关系表结构,并利用关系型数据库对元数据进行集中存储;通过逻辑卷整合分布在不同存储位置的多版本数据,实现介质无关的多版本数据的管理与组织;利用SQL语法规则实现对元数据的访问控制与选择过滤,并在文件视图中以目录树的形式展示和管理异构存储环境下的多版本数据。进一步地,所述异构存储环境包括本地存储端、云存储端。进一步地,所述关系表结构包括:a)File表:用来存文件的相关信息,每个文件都有一个唯一的FileId来标识;b)Path表:用来存目录的路径,每个路径都有一个唯一的PathId来标识;c)Job表:用来存每个作业的信息,每个作业都有一个唯一的JobId来标识;d)JobMedia表:用来存每个作业的存储信息;e)Fileset表:用来存每个文件集的信息,里面包含需要备份的路径和文件,每个Fileset都有一个唯一的FilesetId来标识;f)PathHierarchy表:用来存目录路径与父目录路径之间的映射关系;g)Filename表:用来存文件名,每个文件名都有一个唯一的FilenameId来标识;h)PathVisibility表:用来存备份作业与目录路径之间的映射关系,即备份作业的标识符JobId与路径标识符PathId之间的映射关系。进一步地,所述通过逻辑卷整合分布在不同存储位置的多版本数据,是将多版本备份数据存储于一个存储池中,存储池为其分配一个Volume,每个卷中包含有多个Block,每个Block包含多个Record,每个Block和Record都有一个头部,Record记录文件的数据或文件属性;一个Block最多只记录一个Job,Job能够跨多个Block存储。进一步地,卷的存储格式中包括以下字段:校验和、Block的大小、Block序号、标识号、会话ID、会话时间、Block中的文件序号、定义record存的是文件的哪些信息、以及Record的数据大小;并定义三个特殊的Record,分别为卷标记、会话标记和会话结束时的附加字段。进一步地,步骤3)利用SQL语句,通过两个过程构造多版本文件视图:查询相关JobId和查询子目录和文件。进一步地,所述SQL语句包括:SQL1语句,其目的是查询所选源客户端所定义的FileSetId号最大的所有ID集合,即返回整个源客户端所有备份路径、备份文件名对应的ID;SQL2语句,其目的是先创建一个临时表,然后查询指定FilesetId中最近一次全备份本文档来自技高网
...

【技术保护点】
1.一种异构存储环境下多版本文件视图管理方法,其特征在于,包括以下步骤:抽取异构存储环境下的多版本数据的元数据信息,利用元数据信息形成关系表结构,并利用关系型数据库对元数据进行集中存储;通过逻辑卷整合分布在不同存储位置的多版本数据,实现介质无关的多版本数据的管理与组织;利用SQL语法规则实现对元数据的访问控制与选择过滤,并在文件视图中以目录树的形式展示和管理异构存储环境下的多版本数据。

【技术特征摘要】
1.一种异构存储环境下多版本文件视图管理方法,其特征在于,包括以下步骤:抽取异构存储环境下的多版本数据的元数据信息,利用元数据信息形成关系表结构,并利用关系型数据库对元数据进行集中存储;通过逻辑卷整合分布在不同存储位置的多版本数据,实现介质无关的多版本数据的管理与组织;利用SQL语法规则实现对元数据的访问控制与选择过滤,并在文件视图中以目录树的形式展示和管理异构存储环境下的多版本数据。2.如权利要求1所述的方法,其特征在于,所述异构存储环境包括本地存储端、云存储端。3.如权利要求1所述的方法,其特征在于,所述关系表结构包括:a)File表:用来存文件的相关信息,每个文件都有一个唯一的FileId来标识;b)Path表:用来存目录的路径,每个路径都有一个唯一的PathId来标识;c)Job表:用来存每个作业的信息,每个作业都有一个唯一的JobId来标识;d)JobMedia表:用来存每个作业的存储信息;e)Fileset表:用来存每个文件集的信息,里面包含需要备份的路径和文件,每个Fileset都有一个唯一的FilesetId来标识;f)PathHierarchy表:用来存目录路径与父目录路径之间的映射关系;g)Filename表:用来存文件名,每个文件名都有一个唯一的FilenameId来标识;h)PathVisibility表:用来存备份作业与目录路径之间的映射关系,即备份作业的标识符JobId与路径标识符PathId之间的映射关系。4.如权利要求3所述的方法,其特征在于,运行一个备份作业时,所述关系表结构中各表的写入过程包括:1)在Job表创建一条Job记录,写入Job的相关信息;2)在Client表中根据备份源客户端检查是否有该客户端的记录,若无,则创建一条Client记录;3)在Filename表中根据文件名检查是否有该文件的Filename记录,若无,则创建一条记录;4)在Path表中根据文件路径检查是否有该路径的Path记录,若无,则创建一条记录;5)在File表中创建一条File记录,写入文件的相关信息;6)重复步骤3到步骤5,写入每个文件和路径的信息;7)在JobMedia表中创建关于该Job的JobMedia记录,写入文件的存储信息;8)更新步骤1)中的Job记录,将作业的结束时间EndTime写入到Job表中。5.如权利要求4所述的方法,其特征在于,运行一个迁移作业将位于本地存储端的某一个备份作业的数据迁移到云存储端时,对元数据做如下操作:1)在Job表中创建一个新的Job记录,分配一个新...

【专利技术属性】
技术研发人员:吴广君李超付戈王树鹏赵百强祝林枫
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1