一种面向Geo-distributed云存储的数据副本放置方法技术

技术编号:18723964 阅读:42 留言:0更新日期:2018-08-22 00:53
本发明专利技术涉及一种面向Geo‑distributed云存储的数据副本放置方法,针对现有技术的不足,对其进行改进,在Geo‑distributed环境下云存储中数据中心分布在不同物理位置上,主要考虑各个数据中心之间的数据迁移代价,根据历史统计预测本周期内的数据副本的访问热度,进而计算出数据副本的系数,在放置数据副本时,综合考虑数据副本在各个数据中心的访问热度和各个数据中心本身的物理能力值,这样既可以最大化保证数据本地化,减少数据中心之间的数据块迁移,又保证系统性能提高任务执行效率。

A data replica placement method for Geo-distributed cloud storage

The present invention relates to a data copy placement method for Geo_distributed cloud storage. Aiming at the shortcomings of the existing technology, the method is improved. In the Geo_distributed cloud storage, the data centers are distributed in different physical locations, mainly considering the data migration costs between different data centers, according to historical statistics. Predict the access heat of data replicas in this cycle, and then calculate the coefficient of data replicas. When placing data replicas, consider the access heat of data replicas in each data center and the physical capacity of each data center. This can maximize the data localization and reduce the number of data centers. The data block migration ensures the performance of the system and improves the efficiency of task execution.

【技术实现步骤摘要】
一种面向Geo-distributed云存储的数据副本放置方法
本专利技术涉及一种面向Geo-distributed云存储的数据副本放置方法,属于Geo-distributed环境下云存储

技术介绍
随着数据以爆炸方式的增长,人们对云计算越来越关注,作为云计算的基础,云存储成为一个研究的热点方向。大数据的处理对数据中心提出了更高的要求,面对这种情况,Geo-distributed云存储系统是一个非常好的解决方法,在Geo-distributed云存储中一个关键挑战是如何有效的保证系统性能,满足用户需求。在Geo-distributed云存储系统中,多个数据中心子集集群之间的通信代价比单个数据子集集群中数据节点的通信代价要大很多,在数据中心子集集群之间大量的数据传输会大大增加系统任务的执行时间。
技术实现思路
本专利技术所要解决的技术问题是提供一种面向Geo-distributed云存储的数据副本放置方法,采用全新数据副本放置方法,保证数据的本地化,减少数据中心子集集群之间的网络负载。本专利技术为了解决上述技术问题采用以下技术方案:本专利技术设计了一种面向Geo-distributed云存储的数据副本放置方法,包括如下步骤:步骤A.分别获取各个数据中心的存储能力值,以及获取所有数据中心,两两之间的物理距离和网络传输带宽,然后进入步骤B;步骤B.分别针对各个数据中心内的各个数据块,根据数据块的历史访问次数,获得该数据块本周期的预测访问次数,即分别获得各个数据中心内各个数据块本周期的预测访问次数,然后进入步骤C;步骤C.根据各个数据中心内各个数据块本周期的预测访问次数,分别获得各个数据块本周期的预测热度,并根据热度值由大至小顺序,针对所有数据块进行排序,按排序将所有数据块划分至Phot集合、Pwarm集合、Pcold集合,且Phot集合、Pwarm集合、Pcold集合分别对应不同的副本系数,然后进入步骤D;步骤D.根据本周期预测热度由大至小的排序,针对各个数据块排序,并初始化n=1,然后进入步骤E;步骤E.以第n个数据块所在集合对应的副本系数,作为第n个数据块所对应数据副本的个数kn,并相应生成kn个数据副本,然后进入步骤F;步骤F.针对按存储能力值由大至小顺序排序的各个数据中心,顺序选择2kn个数据中心,作为各个待放置数据中心,并获得各个待放置数据中心分别与第n个数据块所在数据中心之间、对应第n个数据的数据块副本通信代价,然后根据数据块副本通信代价由小至大的顺序,顺序选择kn个数据中心,作为第n个数据块所对应的各个副本放置数据中心,并进入步骤G;步骤G.将第n个数据块所对应的kn个数据副本,分别放置于第n个数据块所对应的各个副本放置数据中心,然后分别更新获取各个数据中心的存储能力值,并进入步骤H;步骤H.判断n是否等于N,是则完成数据副本的放置;否则针对n的值进行加1更新,并返回步骤E;其中,N表示所有数据中心内所有数据块的总数。作为本专利技术的一种优选技术方案:所述步骤A中,分别针对各个数据中心,按如下公式:HPi=α*IOi+β*BWi+γ*DPi获取各个数据中心的存储能力值HPi,其中,i={1、…、I},I表示数据中心的总数,HPi表示第i个个数据中心的存储能力值,IOi表示第i个数据中心的磁盘I/O,α表示数据中心磁盘I/O的权重,BWi表示第i个数据中心的带宽,β表示数据中心带宽的权重,DPi表示第i个数据中心的磁盘剩余空间,γ表示数据中心磁盘剩余空间的权重,α+β+γ=1。作为本专利技术的一种优选技术方案:所述步骤B中,分别针对各个数据中心内的各个数据块,根据数据块的历史访问次数,按如下公式:获得该数据块本周期的预测访问次数,即分别获得各个数据中心内各个数据块本周期的预测访问次数其中,i={1、…、I},I表示数据中心的总数,ji={1、…、Ji},Ji表示第i个数据中心内数据块的总数,表示第i个数据中心内第ji个数据块本周期的预测访问次数,表示第i个数据中心内第ji个数据块前一个周期的访问次数,表示第i个数据中心内第ji个数据块前两个周期的访问次数,σ表示预设影响因子,且0.5<σ≤1。作为本专利技术的一种优选技术方案:所述步骤C中,根据各个数据中心内各个数据块本周期的预测访问次数,按如下公式:分别获得各个数据块本周期的预测热度其中,i'={1、…、I},I表示数据中心的总数,ji'={1、…、Ji},Ji表示第i个数据中心内数据块的总数,表示第i个数据中心内第ji个数据块本周期预测热度,表示第i个数据中心内第ji个数据块本周期的预测访问次数,表示第i'个数据中心内第ji'个数据块本周期的预测访问次数。作为本专利技术的一种优选技术方案:所述步骤C中,根据热度值由大至小顺序,针对所有数据块进行排序,将热度值大于或等于预设上热度阈值的数据块划分至Phot集合,将热度值大于预设下热度阈值、且小于预设上热度阈值的数据块划分至Pwarm集合,将热度值小于或等于预设下热度阈值的数据块划分至Pcold集合,Phot集合、Pwarm集合、Pcold集合分别对应不同的副本系数。作为本专利技术的一种优选技术方案:所述步骤F中,分别针对各个待放置数据中心,按如下公式:获得各个待放置数据中心分别与第n个数据块所在数据中心之间、对应第n个数据的数据块副本通信代价Costnl,其中,l={1、…、L},L表示待放置数据中心的总数,BWnl表示第n个数据块所在数据中心与第l个待放置数据中心之间的带宽,Blocknsize表示第n个数据块的大小,Distnl表示第n个数据块所在数据中心与第l个待放置数据中心之间的物理距离,Costnl表示第l个待放置数据中心与第n个数据块所在数据中心之间、对应第n个数据的数据块副本通信代价。本专利技术所述一种面向Geo-distributed云存储的数据副本放置方法采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术设计的面向Geo-distributed云存储的数据副本放置方法,针对现有技术的不足,对其进行改进,在Geo-distributed环境下云存储中数据中心分布在不同物理位置上,主要考虑各个数据中心之间的数据迁移代价,根据历史统计预测本周期内的数据副本的访问热度,进而计算出数据副本的系数,在放置数据副本时,综合考虑数据副本在各个数据中心的访问热度和各个数据中心本身的物理能力值,这样既可以最大化保证数据本地化,减少数据中心之间的数据块迁移,又保证系统性能提高任务执行效率。附图说明图1是本专利技术所设计面向Geo-distributed云存储的数据副本放置方法的流程示意图。具体实施方式下面结合说明书附图对本专利技术的具体实施方式作进一步详细的说明。当需要处理存储在Geo-distributed集群中的数据时,我们需要面对一个新的挑战,在geo-distributed环境中数据中心子集集群之间的网络负载会增大,在Geo-distributed集群中数据中心之间大量的数据传输会对系统的性能有很大的降低。单个数据中心任务的执行时间优于在集群中需要在数据中心之间传输数据的任务。通过移动数据中心输入数据可以减少数据中心之间的网络负载,进而减少任务的执行时间,启示我们通过改变数据副本的放置位置,保证数据的本地化,减少本文档来自技高网...

【技术保护点】
1.一种面向Geo‑distributed云存储的数据副本放置方法,其特征在于,包括如下步骤:步骤A.分别获取各个数据中心的存储能力值,以及获取所有数据中心,两两之间的物理距离和网络传输带宽,然后进入步骤B;步骤B.分别针对各个数据中心内的各个数据块,根据数据块的历史访问次数,获得该数据块本周期的预测访问次数,即分别获得各个数据中心内各个数据块本周期的预测访问次数,然后进入步骤C;步骤C.根据各个数据中心内各个数据块本周期的预测访问次数,分别获得各个数据块本周期的预测热度,并根据热度值由大至小顺序,针对所有数据块进行排序,按排序将所有数据块划分至Phot集合、Pwarm集合、Pcold集合,且Phot集合、Pwarm集合、Pcold集合分别对应不同的副本系数,然后进入步骤D;步骤D.根据本周期预测热度由大至小的排序,针对各个数据块排序,并初始化n=1,然后进入步骤E;步骤E.以第n个数据块所在集合对应的副本系数,作为第n个数据块所对应数据副本的个数kn,并相应生成kn个数据副本,然后进入步骤F;步骤F.针对按存储能力值由大至小顺序排序的各个数据中心,顺序选择2kn个数据中心,作为各个待放置数据中心,并获得各个待放置数据中心分别与第n个数据块所在数据中心之间、对应第n个数据的数据块副本通信代价,然后根据数据块副本通信代价由小至大的顺序,顺序选择kn个数据中心,作为第n个数据块所对应的各个副本放置数据中心,并进入步骤G;步骤G.将第n个数据块所对应的kn个数据副本,分别放置于第n个数据块所对应的各个副本放置数据中心,然后分别更新获取各个数据中心的存储能力值,并进入步骤H;步骤H.判断n是否等于N,是则完成数据副本的放置;否则针对n的值进行加1更新,并返回步骤E;其中,N表示所有数据中心内所有数据块的总数。...

【技术特征摘要】
1.一种面向Geo-distributed云存储的数据副本放置方法,其特征在于,包括如下步骤:步骤A.分别获取各个数据中心的存储能力值,以及获取所有数据中心,两两之间的物理距离和网络传输带宽,然后进入步骤B;步骤B.分别针对各个数据中心内的各个数据块,根据数据块的历史访问次数,获得该数据块本周期的预测访问次数,即分别获得各个数据中心内各个数据块本周期的预测访问次数,然后进入步骤C;步骤C.根据各个数据中心内各个数据块本周期的预测访问次数,分别获得各个数据块本周期的预测热度,并根据热度值由大至小顺序,针对所有数据块进行排序,按排序将所有数据块划分至Phot集合、Pwarm集合、Pcold集合,且Phot集合、Pwarm集合、Pcold集合分别对应不同的副本系数,然后进入步骤D;步骤D.根据本周期预测热度由大至小的排序,针对各个数据块排序,并初始化n=1,然后进入步骤E;步骤E.以第n个数据块所在集合对应的副本系数,作为第n个数据块所对应数据副本的个数kn,并相应生成kn个数据副本,然后进入步骤F;步骤F.针对按存储能力值由大至小顺序排序的各个数据中心,顺序选择2kn个数据中心,作为各个待放置数据中心,并获得各个待放置数据中心分别与第n个数据块所在数据中心之间、对应第n个数据的数据块副本通信代价,然后根据数据块副本通信代价由小至大的顺序,顺序选择kn个数据中心,作为第n个数据块所对应的各个副本放置数据中心,并进入步骤G;步骤G.将第n个数据块所对应的kn个数据副本,分别放置于第n个数据块所对应的各个副本放置数据中心,然后分别更新获取各个数据中心的存储能力值,并进入步骤H;步骤H.判断n是否等于N,是则完成数据副本的放置;否则针对n的值进行加1更新,并返回步骤E;其中,N表示所有数据中心内所有数据块的总数。2.根据权利要求1所述一种面向Geo-distributed云存储的数据副本放置方法,其特征在于:所述步骤A中,分别针对各个数据中心,按如下公式:HPi=α*IOi+β*BWi+γ*DPi获取各个数据中心的存储能力值HPi,其中,i={1、…、I},I表示数据中心的总数,HPi表示第i个个数据中心的存储能力值,IOi表示第i个数据中心的磁盘I/O,α表示数据中心磁盘I/O的权重,BWi表示第i个数据中心的带宽,β表示数据中心带宽的权重,DPi表示第i个数据中心的磁盘剩余空间,γ表示数据中心磁盘剩余空间的权重,α+β+γ=1。3.根据权利要求1所述一种面...

【专利技术属性】
技术研发人员:付雄赵玉杰乔磊邓松程春玲王俊昌王秀翠
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1