一种基于库复制的分布式存储系统技术方案

技术编号:15639425 阅读:139 留言:0更新日期:2017-06-15 23:28
本发明专利技术涉及一种基于库复制的分布式存储系统,该系统包括多个数据端,多个镜像服务器,控制服务器;在控制服务器的控制下,将数据端中的数据保存到一个或多个镜像服务器中;数据端用于存储数据,根据控制服务器发送的分库策略进行数据分库,将分库数据发送到指定进行服务器;该系统利用对照表和目录表进行文件和库的管理,通过对数据进行切分、复制、自动并行修复,构建了一个高可靠、自管理的分布式存储系统,在机器数量大于故障机器上的库的数量时,整个修复过程的耗时通常仅需几十分钟,解决了数据高效自动修复的问题。

【技术实现步骤摘要】
一种基于库复制的分布式存储系统
本专利技术属于数据存储领域,尤其涉及一种基于库复制的分布式存储系统。
技术介绍
分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。现有技术中的采用垂直扩展或者水平扩展方式进行分布式存储,垂直扩展就是按照功能切分数据库,将不同功能的数据,存储在不同的数据库中,这样一个大数据库就被切分成多个小数据库,从而达到了数据库的扩展。水平扩展是将数据的水平切分理解为按照数据行来切分,就是将表中的某些行切分到一个数据库中,而另外的某些行又切分到其他的数据库中。上述存储方法均没有考虑到存储单元的能力和分布开销,也不能进行自动的数据分库管理。基于上述诸多问题,现在亟需一种新的分布式存储系统,利用对照表和目录表进行文件和库的管理,通过对数据进行切分、复制、自动并行修复,构建了一个高可靠、自管理的分布式存储系统,在机器数量大于故障机器上的库的数量时,整个修复过程的耗时通常仅需几十分钟,解决了数据高效自动修复的问题。
技术实现思路
为了解决现有技术中的上述问题,本专利技术采用的技术方案如下:一种基于库复制的分布式存储系统,其特征在于,该系统包括:多个数据端,多个镜像服务器,控制服务器;在控制服务器的控制下,将数据端中的数据保存到一个或多个镜像服务器中;控制服务器用于根据数据端的优先级和所保存的文件信息确定分库策略,并将该分库策略提供给数据端;还用于对每个数据端的运行状态进行监测,当数据端发生故障时,控制镜像服务器根据其保存的库数据对故障数据端进行数据恢复;数据端用于在设定时刻到来时向控制服务器发送镜像请求,还用于存储业务数据,根据控制服务器发送的分库策略进行文件分库,和所分配的镜像服务器建立端口绑定关系;基于该端口绑定关系进行库包含的文件数据的恢复;还用于建立文件和库对照表、库目录表,并将该表信息保存在本地存储空间和控制服务器中;镜像服务器用于通过所建立的端口绑定关系,基于文件和库对照表、库目录表,将库数据恢复到数据端的文件所在原始位置;其中,将文件编号和文件在数据端的物理位置、文件所在的库,文件在库中的位置关联保存在文件和库对照表中;将库及其包含的文件编号、文件在库中的位置保存在库目录表中。进一步的:数据端为业务端或业务服务器,用户将业务数据保存在该数据端中。进一步的:监控获取针对数据端的数据产生高峰时间段,将高峰时间段过去后的第一时刻设置为设定时刻。进一步的:数据端将数据量达到预设值的时刻设置为设定时刻。进一步的:将预设周期到达后的第一时刻设置为设定时刻。进一步的:支持全量和增量数据镜像。进一步的:在增量数据镜像时,控制服务器控制数据端仅对增量文件进行分库和镜像,并增量的更新文件和库对照表、库目录表。进一步的:支持大数据文件的分布式存储。进一步的:镜像服务器在发生故障或者没有可用存储空间时,可以暂停提供镜像服务,控制服务器不再提供该镜像服务器进行镜像。进一步的:镜像服务器分散于云存储系统中。本专利技术的有益效果包括:利用对照表和目录表进行文件和库的管理,通过对数据进行切分、复制、自动并行修复,构建了一个高可靠、自管理的分布式存储系统,在机器数量大于故障机器上的库的数量时,整个修复过程的耗时通常仅需几十分钟,解决了数据高效自动修复的问题。【附图说明】此处所说明的附图是用来提供对本专利技术的进一步理解,构成本申请的一部分,但并不构成对本专利技术的不当限定,在附图中:图1是本专利技术的一种基于库复制的分布式存储系统的结构图。【具体实施方式】下面将结合附图以及具体实施例来详细说明本专利技术,其中的示意性实施例以及说明仅用来解释本专利技术,但并不作为对本专利技术的限定。参见附图1,是本专利技术所应用的一种基于库复制的分布式存储系统,该系统包括多个数据端,多个镜像服务器;控制服务器,在控制服务器的控制下,将数据端中的数据保存到一个或多个镜像服务器中;控制服务器用于根据数据端的优先级和所保存的文件信息确定分库策略,并将该分库策略提供给数据端;还用于对每个数据端的运行状态进行监测,当数据端发生故障时,控制镜像服务器根据其保存的库数据对故障数据端进行数据恢复;数据端用于在设定时刻到来时向控制服务器发送镜像请求,还用于存储业务数据,根据控制服务器发送的分库策略进行文件分库,和所分配的镜像服务器建立端口绑定关系;基于该端口绑定关系进行库包含的文件数据的恢复;还用于建立文件和库对照表、库目录表,并将该表信息保存在本地存储空间和控制服务器中;镜像服务器用于通过所建立的端口绑定关系,基于文件和库对照表、库目录表,将库数据恢复到数据端的文件所在原始位置;其中,将文件编号和文件在数据端的物理位置、文件所在的库,文件在库中的位置关联保存在文件和库对照表中;将库及其包含的文件编号、文件在库中的位置保存在库目录表中;基于上述系统,下面对本专利技术的一种基于库复制的分布式存储方法进行详细说明:(1)数据端向控制服务器发送镜像请求,请求中携带该数据端本次需要镜像的文件个数n、文件平均大小FS、数据端标识ID;数据端周期性的、在空闲时段、或发起重要数据操作前发出镜像请求;(2)控制服务器接收镜像请求,根据当前镜像服务器存储资源可用情况,确定并发送分库策略给该请求数据端;分库策略中包含本次分库基准值Z,库文件冗余份数基准值R;具体的:根据数据端标识ID从本地预存的数据端标识ID和数据端优先级PR之间的对应表获取该数据端的优先级PR;基于该优先级PR和文件平均大小FS,根据公式(1)计算文件分库基准值Z;考虑到文件大小较大时,应当将文件尽量分派到不同的镜像服务器以提高文件的修复速度,同时当数据端优先级较高时,将文件分配到多个镜像服务器可以提高文件的修复速度,从而给高优先级用户更好的修复体验,因此,对高优先级数据端和大文件镜像提供更高的基准值从而提高文件的分散度,以保证数据的安全性和恢复速度;分库基准值的最大值Zmax根据公式(3)计算得到;Zmax=FS×n/∑(CP/NM)×Rmax×w公式(3)其中,CP为一个镜像服务器的可用空间大小,∑(CP/NM)为所有可用镜像服务器的平均可用空间大小;NM为可用镜像服务器总数;Rmax最大冗余份数,w为调节系数,可以由控制服务器根据当前镜像服务器运行状况来预设,镜像服务器运行状况包括:镜像服务器可用计算资源,可用端口,可用存储资源;当冗余份数过多时,数据端不能提供足够的端口进行并行恢复,且安全性也不能再提高更多,因此,可以根据经验来设置该Rmax值;冗余份数基准值R由控制服务器根据当前可用镜像服务器个数或系统中镜像服务器总数来设置;R是可以动态调节的;(3)数据端根据文件分库基准值Z进行文件分库,并计算库Lj的冗余份数Rj;具体的:数据端的数据以文件为组织单位进行顺序编号;顺序编号后的文件为:F1,F2,···,Fi,···,Fn;其中,n为数据端总的文件个数;将n个文件分为Z个库文件,L1,L2···,Lj,···LZ;其中本文档来自技高网...
一种基于库复制的分布式存储系统

【技术保护点】
一种基于库复制的分布式存储系统,其特征在于,该系统包括:多个数据端,多个镜像服务器,控制服务器;在控制服务器的控制下,将数据端中的数据保存到一个或多个镜像服务器中;控制服务器用于根据数据端的优先级和所保存的文件信息确定分库策略,并将该分库策略提供给数据端;还用于对每个数据端的运行状态进行监测,当数据端发生故障时,控制镜像服务器根据其保存的库数据对故障数据端进行数据恢复;数据端用于在设定时刻到来时向控制服务器发送镜像请求,还用于存储业务数据,根据控制服务器发送的分库策略进行文件分库,和所分配的镜像服务器建立端口绑定关系;基于该端口绑定关系进行库包含的文件数据的恢复;还用于建立文件和库对照表、库目录表,并将该表信息保存在本地存储空间和控制服务器中;镜像服务器用于通过所建立的端口绑定关系,基于文件和库对照表、库目录表,将库数据恢复到数据端的文件所在原始位置;其中,将文件编号和文件在数据端的物理位置、文件所在的库、文件在库中的位置关联保存在文件和库对照表中;将库及其包含的文件编号、文件在库中的位置保存在库目录表中。

【技术特征摘要】
1.一种基于库复制的分布式存储系统,其特征在于,该系统包括:多个数据端,多个镜像服务器,控制服务器;在控制服务器的控制下,将数据端中的数据保存到一个或多个镜像服务器中;控制服务器用于根据数据端的优先级和所保存的文件信息确定分库策略,并将该分库策略提供给数据端;还用于对每个数据端的运行状态进行监测,当数据端发生故障时,控制镜像服务器根据其保存的库数据对故障数据端进行数据恢复;数据端用于在设定时刻到来时向控制服务器发送镜像请求,还用于存储业务数据,根据控制服务器发送的分库策略进行文件分库,和所分配的镜像服务器建立端口绑定关系;基于该端口绑定关系进行库包含的文件数据的恢复;还用于建立文件和库对照表、库目录表,并将该表信息保存在本地存储空间和控制服务器中;镜像服务器用于通过所建立的端口绑定关系,基于文件和库对照表、库目录表,将库数据恢复到数据端的文件所在原始位置;其中,将文件编号和文件在数据端的物理位置、文件所在的库、文件在库中的位置关联保存在文件和库对照表中;将库及其包含的文件编号、文件在库中的位置保存在库目录表中。2.根据权利要求1所述的基于库复制的分布式存储系统,其特征在于,数据端为业务端或业务服务器,用户将业务数...

【专利技术属性】
技术研发人员:楚涌泉刘斌张丽
申请(专利权)人:航天星图科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1