一种分布式文件系统及其数据分布方法技术方案

技术编号:10022032 阅读:86 留言:0更新日期:2014-05-09 03:43
本发明专利技术公开了一种分布式文件系统及其数据分布方法,其中,数据分布方法包括以下步骤:将分布式文件系统分成若干存储层,每一存储层包括若干存储设备;设置各存储层及其存储设备的组成信息,以及副本放置策略信息;根据组成信息以及副本放置策略信息,分布对象副本到各存储层中的各存储设备。本发明专利技术采用伪随机的数据分布方法,能够高效地和健壮地分布对象副本到结构化的、层次的存储集群中,能够优化数据分布来充分利用可用资源,在一致失效的情况下最大可能地保障数据安全,具有以下两大优点:数据完全的分布,大型系统中的任何部分数据都会独立地计算对象的存储位置;被要求的少量的元数据基本上是静态的,只有设备加入或者删除时才会改变。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,其中,数据分布方法包括以下步骤:将分布式文件系统分成若干存储层,每一存储层包括若干存储设备;设置各存储层及其存储设备的组成信息,以及副本放置策略信息;根据组成信息以及副本放置策略信息,分布对象副本到各存储层中的各存储设备。本专利技术采用伪随机的数据分布方法,能够高效地和健壮地分布对象副本到结构化的、层次的存储集群中,能够优化数据分布来充分利用可用资源,在一致失效的情况下最大可能地保障数据安全,具有以下两大优点:数据完全的分布,大型系统中的任何部分数据都会独立地计算对象的存储位置;被要求的少量的元数据基本上是静态的,只有设备加入或者删除时才会改变。【专利说明】
本专利技术涉及文件系统的数据管理,尤其涉及的是,。
技术介绍
在信息化飞速发展的时代,数据的大量膨胀使得分布式文件系统进入了发展的黄金时期,从数据共享到互联网应用,已经应用到了各行各业。对于大多数分布式文件系统或集群文件系统、并行文件系统而言,通常将元数据与数据两者独立开来,即控制流与数据流进行分离,从而获得更高的系统扩展性和I/o并发性,由此可见元数据的重要性与必要性。但随着数据量的急剧膨胀,文件系统面临的将是PB (百万GB)级的数据和上千万的存储节点,不论是集中式元数据服务文件系统、分布式元数据服务文件系统或者是无元数据服务文件系统,都将面临着极大的挑战。在大数据存储的领域,数据的分布往往是文件系统性能的关键。大部分系统只是向未充分使用的设备写数据。这种方式主要的问题是:数据在写入之后很少被移动。即使是非常出色的分布方法也会在系统扩展的时候变得不均衡,因为新的磁盘要么是空的,要么仅包含很少的数据。不论旧的或者新的磁盘都会很忙,这取决于系统负载,但是很少的情况下才能充分利用有用资源。一个较好的解决方法是:将数据随机地分布到系统可用的存储设备上。这样会得到概率上的均衡分布和将新旧设备一致地混合起来。当加入新设备,一份存在数据的随机样本就会迁移到新增的存储设备上来达到平衡。这种方法有一个非常好的优点,在工作负载很大的情况下,所有设备上的工作负载都相似,依然可以保证较好的性能。另外,在大型的存储系统中,单一的大文件将会被随机地分布到很多可用的设备上,对外提供高的并行性和聚合带宽。然而,简单的基于hash(哈希)的分布策略不能适应存储设备的变化,导致大量数据的重新迁移、冲刷。而且,现有的随机分布策略通过分配每个磁盘的副本到其他的设备上来接触复制,这样在有多个设备一起失效时会丢失数据。
技术实现思路
本专利技术所要解决的技术问题是提供一种新的分布式文件系统及其数据分布方法。本专利技术的技术方案如下:一种分布式文件系统的数据分布方法,其包括以下步骤:将所述分布式文件系统分成若干存储层,每一存储层包括若干存储设备;设置各存储层及其存储设备的组成信息,以及副本放置策略信息;根据所述组成信息以及所述副本放置策略信息,分布对象副本到各存储层中的各存储设备。优选的,所述数据分布方法中,分布对象副本之前,还执行以下步骤:选择或修改所述副本放置策略信息中的至少一副本放置策略。优选的,所述数据分布方法中,设置各存储层及其存储设备的组成信息中,还包括以下步骤:设置各存储层及其存储设备的组成信息为一可用资源的层次集群分布图,并为所述层次集群分布图建立各存储设备的逻辑元素连接;并且,设置副本放置策略信息中,还包括以下步骤:设置副本放置策略信息包括数据存放规则选项,其包括选择若干目标设备存放副本以及对副本的约束条件;其中,所述约束条件至少包括选择一存储层。优选的,所述数据分布方法中,所述数据存放规则选项还包括输入步骤和生成步骤;所述输入步骤输入一个整数X;所述生成步骤根据所述整数X生成可选存放副本列表;并且,在所述分布对象副本时,执行所述输入步骤。优选的,所述数据分布方法中,所述数据存放规则选项采用方法定义放置规则指定数据的分布;每一数据存放规则选项包含一系列应用到相应存储层的操作。优选的,所述数据分布方法中,设置各存储层及其存储设备的组成信息中,还包括步骤:对一所述存储层中的各存储设备,以每个存储设备的容量和性能设置其权重;并且,设置副本放置策略信息中,还包括步骤:根据各权重均衡分布数据对象到各存储设备上。优选的,所述数据分布方法还包括步骤:所述分布式文件系统采用对象池管理各存储层及其存储设备;并且,每个对象池中的所有数据对象均设置同样的对象信息,其包括副本份数与分布规则,所述对象信息缓存在各客户端中。优选的,所述数据分布方法中,每个存储设备设置若干个放置组;采用一哈希函数把数据对象的属性关键字映射到放置组,一个放置组存放多个数据对象;采用一致性哈希函数将放置组号映射到实际存放数据对象的存储设备,根据放置组号与副本数量,生成副本位置信息;其中,第一个副本是主副本,其它为从副本。优选的,所述数据分布方法中,所述数据对象的各副本分别放置到相异供电系统、控制器或者物理位置的存储设备上。本专利技术的又一技术方案如下:一种分布式文件系统,其包括对象池与若干存储层;每一所述存储层包括若干存储设备;所述对象池设置控制单元、存储单元与连接单元;所述控制单元与所述存储单元连接,用于设置各存储层及其存储设备的组成信息、以及副本放置策略信息,存储于所述存储单元;所述控制单元还与所述连接单元连接,根据所述组成信息以及所述副本放置策略信息分布对象副本到各存储层中的各存储设备。采用上述方案,本专利技术采用副本放置策略信息,分布对象副本到各存储层中的各存储设备,能够优化数据分布来充分利用可用资源,具有很高的市场应用价值。【专利附图】【附图说明】图1为本专利技术的一个实施例的示意图。【具体实施方式】为了便于理解本专利技术,下面结合附图和具体实施例,对本专利技术进行更详细的说明。附图中给出了本专利技术的较佳的实施例。但是,本专利技术可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本专利技术的公开内容的理解更加透彻全面。需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本说明书所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。除非另有定义,本说明书所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本说明书中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本专利技术。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。如图1所示,本专利技术的一个实施例是,一种分布式文件系统的数据分布方法,其包括以下步骤:将所述分布式文件系统分成若干存储层,每一存储层包括若干存储设备;设置各存储层及其存储设备的组成信息,以及副本放置策略信息;根据所述组成信息以及所述副本放置策略信息,分布对象副本到各存储层中的各存储设备。优选的,分布对象副本到同一存储层中相异供电环境的各存储设备中;又如,分布对象副本到相异存储层中相异供电环境的各存储设备中;优选的,分布对象副本之前,轮询各存储层的负载情况;例如,从最高存储层开始评判各存储层的负载情况。本本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:张勤
申请(专利权)人:深圳市中博科创信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1