当前位置: 首页 > 专利查询>厦门大学专利>正文

基于数据依赖性和访问量的云数据分配存储的优化方法及系统技术方案

技术编号:13062860 阅读:75 留言:0更新日期:2016-03-24 01:39
本发明专利技术公开一种基于数据依赖性和访问量的云数据分配存储的优化方法(1)初始阶段的数据分配,a:原始数据中的固定数据集分配到相应数据中心;计算非固定数据集中每一个数据集与其他数据集之间的相关度;b:依次分配每一个数据集,选择与之相关度最大的数据集;若无法分配则放置等待队列中,等待最后阶段分配;(2)运行阶段,a:根据传输开销将任务调度到传输开销最小的数据中心执行;b:执行完毕后若新产生任务与数据集,则首先更新任务集合,然后根据数据集与数据中心的相关度,选择相关度最大的数据中心放置中间数据集。本发明专利技术还公开一种实现上述方法的系统。采用本发明专利技术不仅考虑数据的访问量而且考虑数据间的依赖性,大大提高了云计算下的访问效率。

【技术实现步骤摘要】

本专利技术设及一种基于数据依赖性和访问量云数据分配存储优化方法,特别是设及 一种实现上述方法的系统。
技术介绍
随着大数据时代的来临,在许多领域计算的数据量已经从TB级到PB级,而随着云 计算的发展,其高效的特点为工作流提供了一个新思路。但是大规模的数据分配也同样存 在着许多挑战,不同于传统的分布式网络,云计算采用的是廉价的虚拟化集群,硬件已经不 再是数据分配所应该考虑的因素。大规模数据存在着依赖性,同时数据在单位时间的访问 量是固定的,但是在各个单位时间的访问量一般是变化的,如果不考虑访问量,可能存在负 载不均衡,造成系统瓶颈。因此,云计算动态存储的优化主要是解决数据访问量变化带来的 负载不均衡问题,同时利用大规模数据间的依赖性来提高访问效率。 目前数据动态分配算法虽然能考虑访问量带来的负载不均衡问题,但是对数据直 接的相关性考虑较少,随着数据量的增大,访问效率大大提高,因此在一定程度上还有较大 的改进空间。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于数据依赖性和访问量云数据分配存储 优化方法,能提高访问效率。 阳〇化]本专利技术还提供一种基于数据依赖性和访问量云数据分配存储优化系统,能提高访 问效率。 为了达成上述目的,本专利技术的解决方案是: 一种基于数据依赖性和访问量云数据分配存储优化方法,基于数据依赖性的定 义: 阳00引定义1、数据集D=化Ii= 1,2,. . .,|D| },其中:d康示第i个数据集,|D|表示 数据级个数,Idil表示数据集的大小;di分为固定数据集和非固定数据集;固定数据集为有 固定数据中屯、的数据集,即需要特定方位的数据集;非固定数据集为无固定数据中屯、的数 据集,即不需要特定方位的数据集; 定义2、数据中屯、集合M=扣|i= 1,2,. . .,|M|},其中:m康示第i个数据中心 ImI表示数据中屯、的个数,kI表示第i个数据中屯、存储空间的大小; 定义3、count化nTj),其中:Ti和Tj分别表示数据集上的任务集,count灯Tj) 表示数据集Ti和数据集T,共有的任务数量; 定义4、数据依赖性用数据相关度衡量,包括数据集之间的相关度,W及数据集与 数据中屯、的相关度,定义如下: (1)数据集di和d,之间的相关度定义为: 同时,每一个数据集均有一个属性depLink,cbpLink定义为depLink(i)= { <di,depij>Ij声i},根据depij的大小形成降序链表;[001引 似数据集dk与数据中屯、Him之间的相关度定义为: 定义5、定义调度任务Tk在数据中屯、Him上执行引起的传输开销为: thansCostmk= 其中size值巧表示DS中所有数据集大小的和,DSk是Tk需要用的数据集,DSm包 含数据中屯、Mm上的所有数据集,DS'g。。是Tk执行后产生的数据集,DS'm表示DS'g。。中应该 放在Mm上的数据集; 采用如下优化方法: (1)初始阶段的数据分配 a:原始数据中的固定数据集分配到相应数据中屯、;计算非固定数据集中每一个 数据集与其他数据集之间的相关度并加入至其属性链表中; b:依次分配每一个数据集,选择与之相关度最大的数据集;若选择出的数据集固 定或非固定已分配,且分配到的数据中屯、空间足够则进行分配;若选择出的数据集非固定 且还未分配,选择计算能力最强且空间足够则进行分配;若均无法分配则放置等待队列中, 等待最后阶段分配; C:对等待队列中的数据集进行分配,选择计算能力最强且空间足够的数据中屯、进 行分配,否则找到下一个,直到放置完成为止; 阳0对 似运行阶段 a:根据传输开销将任务调度到传输开销最小的数据中屯、执行; b:执行完毕后若新产生任务与数据集,则首先更新任务集合,然后根据数据集与 数据中屯、的相关度,选择相关度最大的数据中屯、放置中间数据集。 所述运行阶段,对于数据中屯、空间不足处理如下: a:与所述初始阶段的数据分配相同,但在下面两种情况时如下处理:当与非固定 数据集相关度最大的数据集未分配时,将后者放置在前者的物理数据中屯、中;在分配等待 队列中数据时也做相同处理; b:对比每个数据集,若逻辑数据中屯、与物理数据中屯、相同,则移动数据集到指定 的逻辑数据中屯、,否则不移动。 一种基于数据依赖性和访问量云数据分配存储优化系统,采用如前所述的方法。 采用上述方案后,本专利技术的基于数据依赖性和访问量云数据分配存储优化方法具 有W下有益效果:本专利技术基于访问量和依赖性的数据分配,结合随机游走算法计算数据间 的相关性,然后在其基础上,进行数据的分配存储;本专利技术能很好将随机游走算法和数据相 关性结合起来,即将随机游走算法结合两阶段数据分配和任务调度不仅考虑了数据的访问 量还考虑了数据的依赖性,大大提高了数据的访问效率。 本专利技术的基于数据依赖性和访问量云数据分配存储优化系统也具有上述有益效 果。【具体实施方式】 为了进一步解释本专利技术的技术方案,下面通过具体实施例来对本专利技术进行详细阐 述。 本专利技术的基于数据依赖性和访问量云数据分配存储优化方法分为初始阶段的数 据分配和运行阶段的数据分配,为了便于说明原理,先作如下定义: 1、数据集D={diIi= 1,2, . . .,IDI},其中:di表示第i个数据集,IDI表示数据级 个数,IdiI表示数据集的大小;di分为固定数据集FD和非固定数据集N抑;固定数据集FD: 为有固定数据中屯、的数据集,即需要特定方位的数据集;非固定数据集NFD:为无固定数据 中屯、的数据集,即不需要特定方位的数据集。 2、数据中屯、的集合M=扣Ii= 1,2,. . .,|M| },其中:m康示第i个数据中心|M| 表示数据中屯、的个数,Imil表示第i个数据中屯、存储空间的大小; 3、count灯1nTj)表示数据集(中屯、)Ti和数据集(中屯、)Tj共有的任务数量;T1 和T,分别表示数据集(数据中屯、)上的任务集; 4、数据依赖性用数据相关度来衡量,包括数据集之间的相关度,W及数据集与数 据中屯、的相关度,定义如下: (1)数据集di和d,之间的相关度定义为:阳0创 同时,每一个数据集均有一个属性depLink,CbpLink定义为depLink(i)= { <di,depij>Ij声i},根据depij的大小形成一个降序链表。[00创 似数据集dk与数据中屯、Him之间的相关度定义为: 5、传输开销,定义调度任务Tk在数据中屯、mm上执行引起的传输开销为:thansCostmk= 其中size值巧表示DS中所有数据集大小的和,运里的DS表达普遍含义,不仅仅 指size值Sk),是泛指所有数据集大小的当前第1页1 2 本文档来自技高网...

【技术保护点】
一种基于数据依赖性和访问量云数据分配存储优化方法,其特征在于:基于数据依赖性的定义:定义1、数据集D={di|i=1,2,...,|D|},其中:di表示第i个数据集,|D|表示数据级个数,|di|表示数据集的大小;di分为固定数据集和非固定数据集;固定数据集为有固定数据中心的数据集,即需要特定方位的数据集;非固定数据集为无固定数据中心的数据集,即不需要特定方位的数据集;定义2、数据中心集合M={mi|i=1,2,...,|M|},其中:mi表示第i个数据中心,|M|表示数据中心的个数,|mi|表示第i个数据中心存储空间的大小;定义3、count(Ti∩Tj),其中:Ti和Tj分别表示数据集上的任务集,count(Ti∩Tj)表示数据集Ti和数据集Tj共有的任务数量;定义4、数据依赖性用数据相关度衡量,包括数据集之间的相关度,以及数据集与数据中心的相关度,定义如下:(1)数据集di和dj之间的相关度定义为:dep(i,j)=count(Ti∩Tj)*min{|di|,|dj|},didj∈NFDcount(Ti∩Tj)*|di|,di∈NFD,dj∈FDcount(Ti∩Tj)*|dj|,di∈FD,dj∈NFD0,didj∈FD]]>同时,每一个数据集均有一个属性depLink,depLink定义为depLink(i)={<di,depij>|j≠i},根据depij的大小形成降序链表;(2)数据集dk与数据中心mm之间的相关度定义为:m_depmk=Σi=1|mm|count(Ti∩Tk)*|dk|]]>定义5、定义调度任务Tk在数据中心mm上执行引起的传输开销为:thansCostmk=[size(DSk)‑size(DSk∩DSm)+size(DS'gen∩DS'm)]其中size(DS)表示DS中所有数据集大小的和,DSk是Tk需要用的数据集,DSm包含数据中心Mm上的所有数据集,DS′gen是Tk执行后产生的数据集,DS'm表示DS'gen中应该放在Mm上的数据集;采用如下优化方法:(1)初始阶段的数据分配a:原始数据中的固定数据集分配到相应数据中心;计算非固定数据集中每一个数据集与其他数据集之间的相关度并加入至其属性链表中;b:依次分配每一个数据集,选择与之相关度最大的数据集;若选择出的数据集固定或非固定已分配,且分配到的数据中心空间足够则进行分配;若选择出的数据集非固定且还未分配,选择计算能力最强且空间足够则进行分配;若均无法分配则放置等待队列中,等待最后阶段分配;c:对等待队列中的数据集进行分配,选择计算能力最强且空间足够的数据中心进行分配,否则找到下一个,直到放置完成为止;(2)运行阶段a:根据传输开销将任务调度到传输开销最小的数据中心执行;b:执行完毕后若新产生任务与数据集,则首先更新任务集合,然后根据数据集与数据中心的相关度,选择相关度最大的数据中心放置中间数据集。...

【技术特征摘要】

【专利技术属性】
技术研发人员:周俊王习庆闫闯姚俊峰苏劲松陈明
申请(专利权)人:厦门大学铜陵有色金属集团股份有限公司金冠铜业分公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1