一种云计算环境下安全感知的科学工作流数据布局方法技术

技术编号:7510590 阅读:306 留言:0更新日期:2012-07-11 12:59
本发明专利技术涉及一种云计算环境下安全感知的科学工作流数据布局方法,本发明专利技术对于任一个科学工作流应用任务,首先根据数据集的属性先把固定位置数据集放置到指定的数据中心上,然后根据数据的安全缺乏度、数据重要程度、数据跨数据中心传输的代价等因素并结合蚁群算法为数据选择合适的数据中心;最后,采用一种基于最大化科学工作流任务安全服务的计算节点选择方法为科学工作流任务选择合适的数据中心。本发明专利技术方法简单,执行效率高,适用于云计算环境下科学工作流数据的布局,可在保证数据安全需求的同时减少数据跨数据中心传输的时间开销。

【技术实现步骤摘要】

本专利技术涉及数据密集型科学工作流的数据布局方法,特别是。
技术介绍
云计算是一种典型的网络计算模式,强调在虚拟计算环境下运行大规模应用的可伸缩性和可用性。基于云计算的大型网络应用呈现异出分布、异构的特点和数据密集的趋势,如科学工作流系统,这类应用被称为数据密集型应用。目前数据密集型应用已被广泛的应用于天文学、高能物理学以及生物信息学等领域。这类应用的数据密集性主要体现在其处理的数据大小通常达TB级甚至PB级,其中既有已存在的输入数据源,也有在对数据进行分析和处理的过程中产生的中间数据和最终结果数据,而通过流程管理技术可以实现这类数据密集型应用的自动化执行。但是科学工作流在利用云计算环境的过程中遇到了一些新的问题,其中在数据放置方面尤为突出。一方面,由于数据密集型科学工作流应用数据量巨大,数据中心之间带宽有限,如何减少科学工作流运行过程中数据跨数据中心的传输代价是亟待解决的问题之一;另一方面,由于云计算环境的开放性和共享性,数据安全是科学工作流部署到云计算环境下必须要考虑的问题,尤其是那些关键应用,如地震预测等。合理的布局方案可以在保证数据安全需求的同时最小化数据跨数据中心传输的代价。科学工作流数据布局技术是针对云计算环境下科学工作流应用自身的特点,从减少数据传输时间的开销和提高数据安全性两方面对数据进行布局。科学工作流具有任务个数多、数据量大的特点,其中任务之间具有相互依赖的关系,这种依赖关系一般体现在数据之间的依赖关系。因此在进行数据布局的时候,综合考虑任务之间的依赖关系、数据中心之间的带宽、数据大小等因素,为数据选择合适的存放位置,以达到减少数据传输时间开销和满足数据安全需求的目的。在云计算环境中,科学工作流数据布局的一般方法是先根据一定的数据布局方法选择为数据选择放置的数据中心,然后再根据调度算法运行科学工作流任务,任务运行过程中根据布局策略把产生的数据放置到指定的数据中心上。科学工作流数据在进行布局的时候应充分考虑数据中心的网络性能和科学工作流数据自身的安全需求。因此,在云计算环境下运行科学工作流时,数据布局策略是提高科学工作流应用执行效率和减轻数据中心网络负载的重要因素。目前,国内外关于云计算环境下科学工作流数据布局问题的研究较少,且主要侧重于降低数据中心网络负载澳大利亚的Dong Yuan等人提出了一种在聚类理论基础上基于K-means聚类策略的数据布局方法,并充分考虑数据依赖关系,来对云计算环境下的科学工作流进行数据布局,达到减少跨数据中心数据传输的效果。山东大学的郑派等人提出了一种云环境下面向数据密集型应用的数据布局策略, 用来减少数据在数据中心之间的频繁移动。 然而,云计算环境作为一个开放的环境,允许多用户共享硬件资源,如何保证数据安全是部署科学工作流到云计算环境下面临的问题之一。而上述云计算环境下科学工作流数据布局方面的研究,并没有考虑到满足数据的安全需求。
技术实现思路
本专利技术的目的是提出一种既兼顾数据安全需求和数据中心的网络性能两方面的要求的云计算环境下安全感知的科学工作流数据布局方法,以此来提高云计算环境下科学工作流的执行效率和降低数据中心网络负载。为了实现上述目的,本专利技术的技术方案是,包括以下步骤第一步先把固定位置的数据集放置到指定位置的数据中心上面;第二步初始化数据集和数据中心之间的信息素,信息素的值设定为l/(m*n),其中m为数据中心的数目,η为数据集的数目;第三步在每次迭代过程中,为数据选择合适的存放位置,选择依据的概率公式为 PM) =leDCwhere j e DC(1)具体选择过程为根据公式(1)计算数据放置到每个数据中心上的概率Pu(t),选择概率最大的数据中心作为数据的放置位置;公式α)中的<ω、<⑴分别为经验参数和安全服务启发函数,其中为第t次迭代时,数据集i与数据中心j之间的信息素浓度;DC是数据中心的集合,是启发函数f(i,j)的函数值,α为残留信息素的相对重要程度,β为启发函数值的相对重要程度;P是一个区间W,l]的随机值,在蚂蚁的求解过程中随机产生,Ptl是一个区间的预设值,采用这种方式主要为了防止搜索过程过早的收敛于局部最优解。该方法针对侦听、篡改、哄骗三种常见的攻击手段,对数据的安全服务需求和数据中心安全服务进行建模,设定数据中心安全服务向量{<,s), SfKsi表示数据中心i的安全服务能力,其中4代表保密服务,<代表完整性服务,<代表授权服务; S), S), <的值分别代表各个安全服务的不同服务系数;设定数据的安全服务需求向量 Sdl= bi.,4,4}和安全服务重要程度向量又=之<},其中4,4和4分别代表数据请求的保密服务、完整性服务、授权服务系数,数据的安全服务重要程度向量Sw表示三种安全服务在数据的安全请求中的重要程度并且有权利要求1. ,其特征在于,该方法包括以下步骤第一步先把固定位置的数据集放置到指定位置的数据中心上面; 第二步初始化数据集和数据中心之间的信息素,信息素的值设定为l/(m*n),其中m 为数据中心的数目,η为数据集的数目;第三步蚂蚁在每次迭代过程中,为数据选择合适的存放位置,选择依据的概率公式为全文摘要本专利技术涉及,本专利技术对于任一个科学工作流应用任务,首先根据数据集的属性先把固定位置数据集放置到指定的数据中心上,然后根据数据的安全缺乏度、数据重要程度、数据跨数据中心传输的代价等因素并结合蚁群算法为数据选择合适的数据中心;最后,采用一种基于最大化科学工作流任务安全服务的计算节点选择方法为科学工作流任务选择合适的数据中心。本专利技术方法简单,执行效率高,适用于云计算环境下科学工作流数据的布局,可在保证数据安全需求的同时减少数据跨数据中心传输的时间开销。文档编号G06Q10/06GK102567851SQ20111045029公开日2012年7月11日 申请日期2011年12月29日 优先权日2011年12月29日专利技术者位凯志, 刘伟, 彭苏, 杜薇 申请人:武汉理工大学本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:刘伟杜薇位凯志彭苏
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术