一种分布式元数据管理方法及系统技术方案

技术编号:9935478 阅读:86 留言:0更新日期:2014-04-18 07:31
一种分布式元数据管理方法,其特征在于,具体包括以下步骤:存储步骤:划分独立的元数据节点和用户表节点,分别用于存储元数据和用户表,并采用多个元数据节点存储元数据的多副本,形成均用于存储相同元数据的主副本节点和从副本节点;校验步骤:对主副本节点和从副本节点进行数据校验,以保证主副本节点和从副本节点上存储的元数据的一致性;修复步骤:采用ZooKeeper技术建立基于主副本节点和从副本节点的监视环,当监视环监视到有主副本节点或从副本节点宕机时,其触发主副本节点和从副本节点之间的切换,实现对宕机节点的修复。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种分布式元数据管理方法及系统,所述方法具体包括:存储步骤,划分独立的元数据节点和用户表节点,分别用于存储元数据和用户表,并采用多个元数据节点存储元数据的多副本,形成存储相同元数据的主副本节点和从副本节点;校验步骤,对主副本节点和从副本节点进行数据校验,以保证主副本节点和从副本节点存储的元数据一致;修复步骤,采用ZooKeeper技术建立基于主副本节点和从副本节点的监视环,当监视到有主副本节点或从副本节点宕机时,其触发主副本节点和从副本节点之间的切换,实现对宕机节点的修复。所述系统与分布式元数据管理方法的技术方案一一对应。本专利技术解决了元数据管理中存在的单点故障和多幅本间一致性等问题。【专利说明】一种分布式元数据管理方法及系统
本专利技术属于海量数据存储管理研究领域,特别是涉及大数据存储领域的元数据管理,是一种分布式元数据管理方法及系统。
技术介绍
近年来,随着信息社会的发展,越来越多的信息被数据化,尤其是伴随着Internet的发展,数据呈爆炸式增长。首先是存储容量的急剧膨胀,从而对于存储服务器提出了更大的需求;其次是数据持续时间的增加;最后,对数据存储的管理提出了更高的要求。特别地,数据的多样化、地理上的分散性、对重要数据的保护等等都对数据管理提出了更高的要求。随着非结构化数据的爆炸,分布式数据库也进入了发展的黄金时期,从高性能计算到数据中心,从数据共享到互联网应用,已经渗透到数据应用的各方各面。对于大多数分布式数据库而言,通常将元数据与数据两者独立开来,即将控制流与数据流进行分离,从而获得更高的策略扩展性和I/o并发性。因而,元数据管理模型显得至关重要,直接影响到策略的扩展性、性能、可靠性和稳定性等。数据存储中的容量增长是没有止境的,对元数据的管理也提出了更高的要求。在分布式存储时,存在多台机器同时读写对元数据表进行读写访问的情景,要求元数据管理策略提供高稳定、高性能的元数据服务。现有的元数据管理策略大概有三类:集中式元数据管理策略、无元数据服务策略和分布式元数据管理策略。集中式元数据服务策略提供一个中央元数据服务器负责元数据的存储和客户端查询请求,它提供统一的命名空间,并处理位置解析和数据定位等访问控制功能。它的缺点非常突出,其中两个最为关键的是性能瓶颈和单点故障问题。无元数据服务策略采用弹性哈希算法,直接摒弃元数据服务,让元数据与数据都一起存储。这样数据一致问题更加复杂,读写操作效率低下,缺乏全局监控管理功能。同时也导致客户端承担了更多的职能,增加了客户端的负载,占用相当的CPU和内存。传统的分布式的元数据管理策略使用多台服务器构成集群协同为分布式数据库提供元数据服务,从而消除集中式元数据服务模型的性能瓶颈和单点故障问题,也消除了无元数据服务策略的效率低下和全局监管困难的问题。但是传统的分布式的元数据管理策略也有它的缺陷,如性能开销和多副本间的一致性问题。因此,针对现有技术中元数据管理的局限性,本专利技术提出了一种新的分布式元数据管理方法及系统。
技术实现思路
本专利技术所要解决的技术问题是提供一种分布式元数据管理方法及系统,用于解决现在技术中元数据管理存在的单点故障和多幅本间一致性等问题。本专利技术解决上述技术问题的技术方案如下:一种分布式元数据管理方法,具体包括以下步骤:存储步骤:划分独立的元数据节点和用户表节点,分别用于存储元数据和用户表,并采用多个元数据节点存储元数据的多副本,形成均用于存储相同元数据的主副本节点和从副本节点;校验步骤:对主副本节点和从副本节点进行数据校验,以保证主副本节点和从副本节点上存储的元数据的一致性;修复步骤:采用ZooKeeper技术建立基于主副本节点和从副本节点的监视环,当监视环监视到有主副本节点或从副本节点宕机时,其触发主副本节点和从副本节点之间的切换,实现对岩机节点的修复。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,所述存储步骤还包括采用动态方式或静态方式扩展元数据节点;动态方式具体包括:增加元数据空节点,通过校验发现元数据空节点后,向发现的元数据空节点传输元数据;静态方式具体包括:在所有元数据节点关机后,再增加新的元数据节点,并在该新增的元数据节点启动时修改其配置。进一步,所述对主副本节点和从副本节点进行数据校验采用轻量级数据校验方式,具体包括:在元数据节点启动时,向所有的元数据节点发送请求,获取每个元数据节点上每个元数据表分片的记录数,若记录数不一致,说明有数据不一致,则关闭不符合条件的元数据节点上的数据分片服务,同时删除该数据分片的数据,并触发副本修复操作。进一步,所述对主副本节点和从副本节点进行数据校验采用定期数据分片文件校验方式,具体包括:元数据节点会定期校验自身维护的数据分片的数据文件是否发生丢失,若发现丢失,则停止该数据分片在当前节点的数据服务,同时删除该数据分片的数据,并立刻触发副本修复操作。进一步,所述对主副本节点和从副本节点进行数据校验采用定期数据分片不同副本间的数据校验方式:主副本节点取得自身的分块依据,并向从副本节点发送分块依据和校验请求,主副本节点和从副本节点均根据该分块依据取得md5值,并将md5值存入check_map中;从副本节点把check_map返回给主副本节点,主副本节点收到从副本的check_map,与自身的check_map做比较,如果所有从副本节点数据都一致,则认为数据一致,否则以主副本数据为准。进一步,所述修复步骤中通过判断元数据节点与ZooKeeper的会话是否过期来确定是否有主副本节点或从副本节点岩机,若会话过期,则发生岩机,否则未岩机。对应上述分布式元数据管理方法,本专利技术的技术方案还包括一种分布式元数据管理系统,具体包括以下模块:存储模块,用于划分独立的元数据节点和用户表节点,使其分别用于存储元数据和用户表,并采用多个元数据节点存储元数据的多副本,形成均用于存储相同元数据的主副本节点和从副本节点;校验模块,用于对主副本节点和从副本节点进行数据校验,以保证主副本节点和从副本节点上存储的元数据的一致性;修复模块,用于采用ZooKeeper技术建立基于主副本节点和从副本节点的监视环,当监视环监视到有主副本节点或从副本节点岩机时,其触发主副本节点和从副本节点之间的切换,实现对宕机节点的修复。进一步,所述存储模块还用于采用动态方式或静态方式扩展元数据节点;动态方式具体包括:增加元数据空节点,通过校验发现元数据空节点后,向发现的元数据空节点传输元数据;静态方式具体包括:在所有元数据节点关机后,再增加新的元数据节点,并在该新增的元数据节点启动时修改其配置。进一步,校验模块包括轻量级数据校验模块、定期数据分片文件校验模块和定期数据分片副本校验模块;所述轻量级数据校验模块,其用于:在元数据节点启动时,向所有的元数据节点发送请求,获取每个元数据节点上每个元数据表分片的记录数,若记录数不一致,说明有数据不一致,则关闭不符合条件的元数据节点上的数据分片服务,同时删除该数据分片的数据,并触发副本修复操作。所述定期数据分片文件校验模块,其用于:使元数据节点定期校验自身维护的数据分片的数据文件是否发生丢失,若发现丢失,则停止该数据分片在当前节点的数据服务,同时删除该数据分片的数据,并立刻触发副本文档来自技高网
...

【技术保护点】
一种分布式元数据管理方法,其特征在于,具体包括以下步骤:存储步骤:划分独立的元数据节点和用户表节点,分别用于存储元数据和用户表,并采用多个元数据节点存储元数据的多副本,形成均用于存储相同元数据的主副本节点和从副本节点;校验步骤:对主副本节点和从副本节点进行数据校验,以保证主副本节点和从副本节点上存储的元数据的一致性;修复步骤:采用ZooKeeper技术建立基于主副本节点和从副本节点的监视环,当监视环监视到有主副本节点或从副本节点宕机时,其触发主副本节点和从副本节点之间的切换,实现对宕机节点的修复。

【技术特征摘要】

【专利技术属性】
技术研发人员:王海平王树鹏张永铮吴广君周晓阳
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1