一种基于数据热度自学习的数据增量备份方法技术

技术编号:20865677 阅读:26 留言:0更新日期:2019-04-17 09:11
本发明专利技术公开了一种基于数据热度自学习的数据增量备份方法,将文件的访问率与阈值比较,访问率大于热阈值就是热数据,访问率小于冷阈值就是冷数据,介于冷热阈值之间的数据则将其进行预判,当某时间段热时,就将其迁移至热区域,否则将其放入冷区域。如果有新数据进行写操作,且原云存储系统不存在该数据,将该数据与原云存储系统中的数据进行关联度分析,找到与其相关度最高的数据,将新数据放入与旧数据相同类型的磁盘中。本发明专利技术很好地将数据文件进行合理的分类,通过合理有效的分类基本避免了在不合理分类的情况下可能出现的热文件在冷区域、冷文件在热区域中的存储资源浪费和文件读取时延增加的情况。

【技术实现步骤摘要】
一种基于数据热度自学习的数据增量备份方法
本专利技术属于计算机数据管理领域,具体是一种基于数据热度自学习的数据增量备份方法。
技术介绍
随着数据密集型应用和服务的越来越普及,大型数据中心常常存储着海量的数据,并且随着时间的推移迅速增长。数据总量从TB到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量已经超过了200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。而随着各种应用对存储设备的需求以每年60%的增长率在扩大,存储系统的备份容灾更不容忽视。因此如何提高大型数据中心存储设备在数据存储备份方面的效率、准确率是一个迫切需要解决的问题。
技术实现思路
本专利技术主要是针对现有的利用数据分类的技术将不同的数据放入不同的磁盘区域来减少在备份数据的过程中所耗费的大量时间,引入了对新数据以及季节热数据的概念,提出了自学习热度数据策略。自学习热度数据策略就是将文件的访问率与阈值比较,访问率大于热阈值就是热数据,访问率小于冷阈值就是冷数据,介于冷热阈值之间的数据则将其进行预判,当某时间段热时,就将其迁移至热区域,否则将其放入冷区域。如果有新数据进行写操作,且原云存储系统不存在该数据,将该数据与原云存储系统中的数据进行关联度分析,找到与其相关度最高的数据,将新数据放入与旧数据相同类型的磁盘中,之后再根据数据的热度来进行相对应的增量备份。以计算能力、存储能力以及网络带宽为衡量标准,为备份系统中的节点分配一个可比较的数值,将这个数值集合和数据的热度值进行映射,当进行备份资源分配,根据数据热度值将数据备份到相应的节点上,从而达到数据的优化动态备份,形成合理的数据分布。本专利技术方法的具体步骤是:步骤(1):对冷数据,热数据,季节热数据,以及新数据进行界定,具体界定如下:1)冷数据:即在长期的数据操作过程中该数据的平均访问操作次数小于冷阈值。2)热数据:即在长期的数据操作过程中该数据的平均访问操作次数大于热阈值。3)季节热数据:即在长期的操作过程中该数据只有某段或某几段时间操作平均次数大于热阈值,数据热度呈现上下波动的情况,而在整个数据操作过程中数据平均访问操作次数处于冷热阈值之间。4)新数据:即表示在云存储系统中没有存在的数据,相应的该数据也不存在被操作的次数。步骤(2):对自学习热度数据模型的定义:定义F={f1,...,fi,...,fm},F代表文件集合,fi={mi,pi},其中pi表示文件fi当前日期的前两年的每个月访问率构成的数组,mi表示文件fi的属性值,其中属性包括:文件的关键字的哈希值,文件名称的哈希值,文件内容的哈希值。pij代表数组pi中的第j个元素,api代表pi数组的平均值,它是访问数据的平均访问率,1)判定访问数据的平均访问频率api是否为0,否,则该数据为旧数据,转至2);是,则该数据为新数据,转至4)。2)将旧数据的平均访问频率值api与冷热阈值进行比较,如果平均访问频率大于等于热阈值thh,则该数据为热数据,将该数据放入热磁盘;将冷热阈值之间的数据视为季节热数据,将小于等于冷阈值thc的数据视为冷数据,将冷数据和季节热数据放入冷磁盘中;如果该数据为季节热数据,在放入冷磁盘之后,转至3)。3)通过神经网络对季节热数据进行预测,预测其下个月的平均访问率,判断其下个月的热度。如果其下个月的平均访问率大于等于热阈值thh,则将该数据放入热磁盘,否则放入冷磁盘。4)将新数据的属性值与冷热磁盘中的旧数据的属性值进行关联度分析,找到相关度最大的旧数据,将新数据放入与旧数据相同类型的磁盘中。步骤(3):自学习模型的构建:令流行文件与非流行文件的数目比为令流行文件与非流行文件的请求数目比为η,S'h/S'c=k,0<k<1,S'h代表热请求文件的平均大小,Sc'代表冷请求文件的平均大小,令th表示高速磁盘传输率,单位为Mb/s,tc表示慢速磁盘传输率,单位为Mb/s,|Dh|/|Dc|=γ,Dh={d1,...,dh,...,de},Dh代表快速旋转磁盘集合,Dc={df,...,dc,...,dn},Dc代表慢速旋转磁盘集合。在区分冷热磁盘情况下总时间消耗为:其中Rh={r1,...rh,...,rb},Rh代表请求热数据的集合,etotal表示实验过程中的能量总消耗,ph表示高速磁盘积极能耗,单位为J/Mb,ih表示高速磁盘理想时刻能耗,单位为J/s。本专利技术的有益效果:本专利技术提出了自学习热度数据备份策略,该策略对新数据以及季节性数据进行了良好的定位,并进行合理的增量备份。本数据热度分类策略很好地将数据文件进行合理的分类,通过合理有效的分类基本避免了在不合理分类的情况下可能出现的热文件在冷区域、冷文件在热区域中的存储资源浪费和文件读取时延增加的情况。本专利技术中的多级增量是对增量涵义的拓展丰富,不再视文件为唯一的增量源,而是从不同角度与层次考察数据增量,克服只能在文件版本间查重的缺陷,更全面的避免重复数据的传输与存储。附图说明图1为数据分类算法的流程图;图2为磁盘数目对响应时间的影响实验图;图3为请求到达率对响应时间的影响实验图;图4为斜度值之比对系统响应时间的影响实验图5为新文件所占比对系统响应时间的影响实验图;图6为不同的合成负载对系统响应时间的影响实验图;图7为不同的新数据及季节热数据所占比例对系统性能的影响实验图;具体实施方式本专利技术主要是针对现有的利用数据分类的技术将不同的数据放入不同的磁盘区域来减少在备份数据的过程中所耗费的大量时间,引入了对新数据以及季节热数据的概念,提出了自学习热度数据策略。自学习热度数据策略就是将文件的访问率与阈值比较,访问率大于热阈值就是热数据,访问率小于冷阈值就是冷数据,介于冷热阈值之间的数据则将其进行预判,当某时间段热时,就将其迁移至热区域,否则将其放入冷区域。如果有新数据进行写操作,且原云存储系统不存在该数据,将该数据与原云存储系统中的数据进行关联度分析,找到与其相关度最高的数据,将新数据放入与旧数据相同类型的磁盘中,之后再根据数据的热度来进行相对应的增量备份。以计算能力、存储能力以及网络带宽为衡量标准,为备份系统中的节点分配一个可比较的数值,将这个数值集合和数据的热度值进行映射,当进行备份资源分配,根据数据热度值将数据备份到相应的节点上,从而达到数据的优化动态备份,形成合理的数据分布。参加图1,所示为本专利技术数据分类算法流程图,本专利技术方法的具体步骤是:步骤(1):对冷数据、热数据、季节热数据以及新数据进行界定,具体数据分类方法如下:1)冷数据:即在长期的数据操作过程中该数据的平均访问操作次数小于冷阈值;2)热数据:即在长期的数据操作过程中该数据的平均访问操作次数大于热阈值;3)季节热数据:即在长期的操作过程中该数据只有某段本文档来自技高网...

【技术保护点】
1.一种基于数据热度自学习的数据增量备份方法,其特征在于,该方法包括以下步骤:步骤S1:基于数据热度构建自学习模型:令流行文件与非流行文件的数目比为

【技术特征摘要】
1.一种基于数据热度自学习的数据增量备份方法,其特征在于,该方法包括以下步骤:步骤S1:基于数据热度构建自学习模型:令流行文件与非流行文件的数目比为令流行文件与非流行文件的请求数目比为η,S'h/S'c=k,0<k<1,S'h代表热请求文件的平均大小,S'c代表冷请求文件的平均大小,令th表示高速磁盘传输率,单位为Mb/s,tc表示慢速磁盘传输率,单位为Mb/s,|Dh|/|Dc|=γ,Dh={d1,...,dh,...,de},Dh代表快速旋转磁盘集合,Dc={df,...,dc,...,dn},Dc代表慢速旋转磁盘集合;在区分冷热磁盘情况下总时间消耗为:其中Rh={r1,...rh,...,rb},Rh代表请求热数据的集合,etotal表示实验过程中的能量总消耗,ph表示高速磁盘积极能耗,单位为J/Mb,ih表示高速磁盘理想时刻能耗,单位为J/s;步骤S2:基于自学习热度数据模型进行数据增量备份:其中,定义F={f1,...,fi,...,fm},F代表文件集合,fi={mi,pi},其中pi表示文件fi当前日期的前...

【专利技术属性】
技术研发人员:张纪林陈军相屠康磊任永坚万健蒋从锋殷昱煜周丽
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1