一种跨数据中心的关联云数据部署方法技术

技术编号:12903187 阅读:79 留言:0更新日期:2016-02-24 12:30
本发明专利技术涉及一种跨数据中心的关联云数据部署方法,首先结合大规模云数据间的关联关系和数据中心的存储空间信息,对云数据进行限定规模的聚类划分,将关联紧密的云数据划分到相同数据子集;然后在数据放置阶段,结合数据集间传输量大小和数据中心间彼此的带宽资源,决定数据集部署位置。有益效果在于:(1)本方法解决了跨数据中心的数据传输影响计算任务执行的难题;(2)本方法在满足数据中心存储能力约束的前提下,将依赖度高的数据尽可能部署到相同或彼此间网络带宽资源充沛的数据中心上。

【技术实现步骤摘要】

本专利技术涉及数据中心领域,尤其涉及。
技术介绍
为提高数据密集型计算任务在云平台上的执行效率,制定合理的数据部署策略是 管理者所须解决的关键问题之一。当前主流分布式数据管理系统均采用一致性哈希策略对 数据进行划分,并基于哈希结果对数据随机部署。该策略忽略了数据间的关联关系,导致大 量不必要的数据传输任务。针对科学计算任务的跨数据中心数据部署策略,采用聚类思想 将关联紧密的数据划分到相同数据子集,并结合数据中心存储能力对其进行部署。但该策 略忽略了数据中心带宽资源的差异,无法降低跨数据中心传输时间开销。采用遗传算法对 云数据的跨数据中心部署策略进行优化,但由于结果很大程度上取决于交叉变异参数的选 择,导致算法的适用性较差。
技术实现思路
本专利技术为克服上述的不足之处,目的在于提供一种跨数据中心的关联云数据部署 方法,从数据部署的角度出发,提出基于数据关联依赖关系的跨数据中心云数据部署算法, 在满足数据中心存储能力约束的前提下,将依赖度高的数据尽可能部署到相同或彼此间网 络带宽资源充沛的数据中心上。本方法解决了跨数据中心的数据传输影响计算任务执行的 难题。 本专利技术是通过以下技术方案达到上述目的:一种跨数据中心的关联云数据部署方 法,包括如下步骤: (1)基于云数据间的关联关系与数据中心的存储空间信息对云数据进行聚类划 分,得到数据子集; (2)结合数据子集之间的传输量大小和数据中心间的带宽资源,完成数据子集的 部署。 作为优选,所述步骤(1)采用限定规模的云数据划分算法完成聚类划分,得到数 据集,步骤如下: (a)依据云数据间关联依赖关系的强弱,将云数据划分成若干数据子集,并部署到 同一数据中心上; (b)根据数据中心的存储空间大小对其进行降序排序; (c)在该排序基础上,对有固定部署限制的数据,根据其部署数据中心的存储能力 决定相应的数据子集规模;根据关联紧密程度和数据大小,从固定部署到相同位置的数据 集合和无部署位置限制的数据集合中选取该数据子集的成员; (d)重复执行步骤(C)直至固定部署需求集合中的全部数据被划分完毕; (e)对于无部署位置限制的数据,根据当前单个数据中心的最大存储能力决定部 署到该数据中心的数据子集规模;并根据数据间的关联紧密程度和数据大小,从数据集合 中选取该数据子集的成员; (f)重复执行步骤(e)直至无位置限制集合中的全部数据被划分完毕;至此,全部 数据均被划分到对应的数据子集中。 作为优选,所述步骤(2)完成数据集的部署的步骤如下: (i)当数据子集有固定部署要求时,将该数据子集部署到其要求的数据中心上; (ii)当数据子集没有固定部署要求时,且数据子集面对多可部署的数据中心时, 则对数据中心的网络带宽资源进行排序比较,将数据子集部署到带宽资源充足的数据中心 上。 作为优选,所述数据中心的网络带宽资源的大小是基于图论中节点度的概念,将 每个数据中心与其他数据中心间的通信带宽资源量相加得到。 作为优选,所述固定部署限制的数据与无部署位置限制的数据的定义如下:设D =为全部数据组成的集合,将数据集分为固定数据集DflJP非固定数据集 Dunflx,其中:Dflx中的数据必须部署到固定的数据中心;而Dunflx中的数据则对其部署数据中 心没有限制;D中每个数据由一个三元组山=<s,l,f>表示,其中:以七)表示数据山的 大小;1 (山)表示数据所部署的数据中心;以山)为true则表示山是固定数据;反之,f(dJ 为false则表示山是非固定数据。 作为优选,所述得到约束条件的过程如下: (A)设定各数据中心存储空间信息为C,带宽信息为B,数据密集型计算任务请求 集合为R,执行任务请求时所需的数据集D1; (B)对于跨数据中心的云数据部署问题引入三个离散变量进行建模,三个离散变 量的定义如下:,基于模型表达式得到约束条 件。 作为优选,所述的约束条件包括6个,如下所示: 作为优选,所述步骤(A)的数据密集型计算任务请求集合为R= {Γι,r2, . . .,rk}, 其中对于AeR,则有D;={ddi2, . . . },用于表示计算任务请求r;执行时所需数据的集 合。 本专利技术的有益效果在于:(1)本方法解决了跨数据中心的数据传输影响计算任务 执行的难题;(2)本方法在满足数据中心存储能力约束的前提下,将依赖度高的数据尽可 能部署到相同或彼此间网络带宽资源充沛的数据中心上。【具体实施方式】 下面结合具体实施例对本专利技术进行进一步描述,但本专利技术的保护范围并不仅限 于此: 实施例:,具体如下: 本实施例中设V={vuv2, . . .,vn}为各数据中心组成的集合,其中VieV为编号 为i的数据中心。C(Vl)为数据中心Vl的存储空间大小。V中η个数据中心间的网络带宽 资源则通过带宽矩阵B= 表示,对于i,j= 1,2,. . .,η且i乒j,带宽矩阵Β中元 素表示从数据中心v肩v』的网络带宽值;当i=j时,bu值为无穷·由于数据中心 间网络带宽资源通常由云平台所有者按需配置,因此假设其网络带宽值提前可知,并且忽 略其实时波动.设D= {山,d2,. . .,dj为全部数据组成的集合。由于某些数据具有私有性 和产权性,或者某些数据须特定数据中心的专有设备才能处理,因此将数据集分为固定数 据集DflJP非固定数据集Dunflx,其中:Dflx中的数据必须部署到固定的数据中心;而Dunflx中 的数据则对其部署数据中心没有限制.D中每个数据由一个三元组山=<s,1,f>表示,其 中:以山)表示数据山的大小;1(七)表示数据所部署的数据中心;以山)为true表示山是 固定数据,其指定存放的数据中心为1 (山),反之f(山)为false则表示山是非固定数据。 设R= {i^,r2, . . .,rk}为数据密集型计算任务的集合,其中对于R,有D;= {屯,di2, . . . },表示计算任务请求1^执行时所需数据的集合.由于云平台上计算任务的复 杂性,因此每个任务所须要处理的数据都不完全相同,同时每个数据都可能被多个不同任 务处理。当某些数据须同时被多个计算任务处理时,这些数据间关联依赖关系便较强;反 之,数据间关联依赖关系便较弱。 在本专利技术的实施例中,给定云环境下各数据中心存储空间信息C和带宽信息B;给 定数据密集型计算任务请求集合R,以及每个计算任务A执行时所需的数据集Di。跨数据 中心大规模云数据部署问题为:如何设计跨数据中心数据部署策略,通过为每个数据选择 合理的数据中心进行部署,在满足数据中心存储空间约束和数据固定存放位置约束的前提 下,降低数据部署后的跨数据中心传输时间开销.为对跨数据中心的云数据优化部署问题 进行建模,引入三个离散变量来描述跨数据中心云数据部署策略,其定义分别如下: 在此基础上,使用整数规划技术对该问题进行建模,其整数规划模型如下: 该模型目标(1)为通过计算合理的数据部署策略,最小化全部数据密集型任务执 行时的跨数据中心数据传输时间开销。需要满足的约束包括:约束(2)保证对数据集D中 任意数据d,都必须被部署到某个数据中心上;约束(3)保证对有固定部署位置限制的数据 dflx,被部署到其要求的数据中心l(df本文档来自技高网...

【技术保护点】
一种跨数据中心的关联云数据部署方法,其特征在于包括如下步骤:(1)基于云数据间的关联关系与数据中心的存储空间信息对云数据进行聚类划分,得到数据子集;(2)结合数据子集之间的传输量大小和数据中心间的带宽资源,完成数据子集的部署。

【技术特征摘要】

【专利技术属性】
技术研发人员:周天和卢晓飞蔡荣张元元徐赟
申请(专利权)人:杭州天宽科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1