一种存在数据依赖关系时降低云存储整体开销的方法技术

技术编号:15080471 阅读:92 留言:0更新日期:2017-04-07 12:36
本发明专利技术公开了一种存在数据依赖关系时降低云存储整体开销的方法。该方法包含数据存储决策模型和数据存储策略决策算法两个部分。在数据存储决策模型中,模型的决策变量为数据的存储策略,包括不存储、多副本存储和纠删码存储;模型的约束条件是数据的可用性需要满足给定的可用性指标;模型的优化目标为最小化系统整体开销,其中数据的整体开销可以同时包括存储开销和计算开销;在计算开销中,数据生成时间是一个随机变量,本发明专利技术给出了其期望的计算方法。在数据存储策略决策算法中,当有新数据生成时,直接决策数据的存储策略;在每个决策周期结束时,以依赖关系图中的连通分支为单位,依据连通分支的节点数是否超过阈值,分别使用遗传算法或遍历剪枝算法来更新该连通分支内数据的存储策略。与现有技术相比,本发明专利技术提供的方法具有在保证了数据可用性的前提下降低系统整体开销的优点。

【技术实现步骤摘要】

本专利技术涉及云存储领域,具体涉及一种存在数据依赖关系时降低云存储整体开销的方法
技术介绍
随着云存储的迅速发展,越来越多的应用将数据存储在云端,如何降低数据中心海量数据的存储开销成为一个重要的问题。在云存储中,数据之间可能存在依赖关系。比如不同清晰度的视频文件可以通过原视频文件转码生成,此时原文件和转码后的文件之间就存在依赖关系。目前,存在数据依赖关系时降低云存储整体开销的方案是:通过算法决策数据是否需要存储,此时数据要么不存储,要么以副本数固定的多副本存储。对于不存储的数据,当其收到访问请求时,先利用依赖关系生成数据,再提供访问服务。此时,系统的整体开销包含存储数据产生的存储开销和生成数据产生的计算开销。然而,现有方案还存在两方面不足:(1)在存储数据时,数据的存储策略固定。没有进一步考虑数据存储策略可变的情况。(2)没有考虑当数据的生成时间超出用户允许的响应延迟时间时,数据不可用的问题。
技术实现思路
针对现有技术存在的问题,本专利技术的主要目的在于提供一种当数据存在依赖关系时,在保证数据可用性指标的前提下降低系统整体开销的方法。为简化表述,下文中的“数据”指云存储中存在依赖关系的数据。数据副本可以指副本方式的一个副本或纠删码方式的一个编码碎片。数据的存储策略指数据的存储方式,包括不存储、多副本存储和纠删码存储。本专利技术的特征在于包含以下内容:1.数据存储决策模型现有方案在保存数据时,使用副本数固定的多副本存储策略。存储模型的决策变量为N个数据是否需要存储,单个数据只有存储开销或者计算开销,且没有考虑数据可用性的问题。与现有方案不同,本专利技术中数据的存储策略可变,其特征在于:1)模型的决策变量为N个数据的存储策略,如公式(2)所示;2)数据的整体开销同时包括现有副本的存储开销和当所有副本失效时生成数据的计算开销,其计算方法由公式(3)给出;3)模型的目标函数为最小化系统整体开销,由公式(1a)给出;4)模型的约束条件为数据的可用性需要满足给定的可用性指标,由公式(1b)给出。2.数据生成时间期望的计算方法在计算数据的整体开销时,其中计算开销与数据的生成时间有关。在本专利技术中,数据的生成时间Ti是一个随机变量,与数据直接或者间接依赖的数据的故障状态有关。本专利技术提供了数据生成时间的期望E(Ti)的计算方法,由公式(8)给出。3.数据可用性的计算方法当数据不存储或者发生故障时,如果不能在用户允许的响应延迟时间内生成数据,会导致数据不可用,影响数据的可用性。本专利技术提供了数据可用性的计算方法,由公式(10)给出。4.数据存储策略决策算法本专利技术给出了在保证数据可用性的前提下,降低系统整体开销的数据存储策略决策算法,算法的执行步骤由流程图3给出。附图说明图1是本专利技术提出的存储模型结构示意图。图2是数据依赖关系示意图。图3是数据存储策略决策算法的整体流程图。图4是图3中数据存储策略更新过程的流程图。图5是图4中步骤S2.2.2的流程图。图6是图4中步骤S2.2.3的流程图。具体实施方式本专利技术所述的一种存在数据依赖关系时降低云存储整体开销的方法主要包括两个部分:S1、数据存储决策模型:模型主要包括系统的结构模型和系统的整体开销模型;S2、数据存储策略决策算法:算法给出了在保证数据可用性的前提下,降低系统整体开销的数据存储策略决策算法。下面结合附图,对本专利技术的具体实施方式做详细说明。S1、数据存储决策模型,主要包含以下部分:S1.1、存储系统的结构该存储系统在云存储系统的数据访问接口层和数据存储层之间添加了数据依赖关系管理层,如图1所示。当数据依赖关系管理层收到数据访问请求时,存在以下情况:情况1:如果数据不存在依赖关系,则将数据访问请求转发给数据存储层;情况2:如果数据存在依赖关系且有可用数据副本时,则将数据访问请求转发给数据存储层;如图2中,数据d5为双副本存储。当两个副本至少有一个可用时,系统使用可用副本提供访问服务。情况3:如果数据存在依赖关系且所有副本均不可用时,先利用依赖关系生成数据,再转发数据访问请求;如图2中,当数据d5两个副本的存储节点发生故障使得副本均不可用时,先利用依赖关系生成数据d5。如果在生成d5过程中,数据d5副本所在节点恢复正常,则停止生成过程,使用原副本继续提供访问服务。否则,删除原副本,使用新生成的副本提供访问服务。S1.2、数据依赖关系管理层结构在S1.1中,数据依赖关系管理层的功能主要包括:数据依赖关系图建立和故障数据重新生成。数据依赖关系图的建立方式如下:基于数据的依赖关系,将系统中的N个存在依赖关系的数据建模为有向无环图的拓扑结构,即数据依赖关系图。图中的节点表示数据,有向边表示数据di的生成依赖于数据dj。数据di包含属性:si,(1≤i≤N)分别表示di单个副本所占的存储空间、di依赖的数据集、di的生成时间、di的生成算子和di的存储策略。其中,si的取值空间为{0,1,2,3,4本文档来自技高网...
一种存在数据依赖关系时降低云存储整体开销的方法

【技术保护点】
一种存在数据依赖关系时降低云存储整体开销的方法,其特征在于:包含数据存储决策模型和数据存储策略决策算法两部分。

【技术特征摘要】
1.一种存在数据依赖关系时降低云存储整体开销的方法,其特征在于:包含数据存储决策模型和数据存储策略决策算法两部分。2.一种权利要求1中的数据存储决策模型,其特征在于:模型的决策变量是数据的存储策略,如公式(2)所示;模型的目标函数为最小化系统整体开销,由公式(1a)给出;模型的约束条件是数据的可用性需要满足给定的可用性指标,由公式(1b)给出。3.一种权利要求2中的系统整体开销中Ci...

【专利技术属性】
技术研发人员:杨波刘匡宏仁
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1