一种基于数据热度自学习的数据增量备份方法技术

技术编号：20865677 阅读：26 留言：0更新日期：2019-04-17 09:11

本发明专利技术公开了一种基于数据热度自学习的数据增量备份方法,将文件的访问率与阈值比较，访问率大于热阈值就是热数据，访问率小于冷阈值就是冷数据，介于冷热阈值之间的数据则将其进行预判，当某时间段热时，就将其迁移至热区域，否则将其放入冷区域。如果有新数据进行写操作，且原云存储系统不存在该数据，将该数据与原云存储系统中的数据进行关联度分析，找到与其相关度最高的数据，将新数据放入与旧数据相同类型的磁盘中。本发明专利技术很好地将数据文件进行合理的分类，通过合理有效的分类基本避免了在不合理分类的情况下可能出现的热文件在冷区域、冷文件在热区域中的存储资源浪费和文件读取时延增加的情况。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据热度自学习的数据增量备份方法
本专利技术属于计算机数据管理领域，具体是一种基于数据热度自学习的数据增量备份方法。
技术介绍
随着数据密集型应用和服务的越来越普及，大型数据中心常常存储着海量的数据，并且随着时间的推移迅速增长。数据总量从TB到PB(1024TB＝1PB)、EB(1024PB＝1EB)乃至ZB(1024EB＝1ZB)级别。国际数据公司(IDC)的研究结果表明，2008年全球产生的数据量为0.49ZB，2009年的数据量为0.8ZB，2010年增长为1.2ZB，2011年的数量更是高达1.82ZB，相当于全球每人产生200GB以上的数据。而到2012年为止，人类生产的所有印刷材料的数据量已经超过了200PB，全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称，整个人类文明所获得的全部数据中，有90％是过去两年内产生的。而到了2020年，全世界所产生的数据规模将达到今天的44倍。而随着各种应用对存储设备的需求以每年60％的增长率在扩大，存储系统的备份容灾更不容忽视。因此如何提高大型数据中心存储设备在数据存储备份方面的效率、准确率是一个迫切需要解决的问题。
技术实现思路
本专利技术主要是针对现有的利用数据分类的技术将不同的数据放入不同的磁盘区域来减少在备份数据的过程中所耗费的大量时间，引入了对新数据以及季节热数据的概念，提出了自学习热度数据策略。自学习热度数据策略就是将文件的访问率与阈值比较，访问率大于热阈值就是热数据，访问率小于冷阈值就是冷数据，介于冷热阈值之间的数据则将其进行预判，当某时间段热时，就将其迁移至热区域，否则将其放入...

【技术保护点】
1.一种基于数据热度自学习的数据增量备份方法，其特征在于，该方法包括以下步骤：步骤S1：基于数据热度构建自学习模型：令流行文件与非流行文件的数目比为

【技术特征摘要】
1.一种基于数据热度自学习的数据增量备份方法，其特征在于，该方法包括以下步骤：步骤S1：基于数据热度构建自学习模型：令流行文件与非流行文件的数目比为令流行文件与非流行文件的请求数目比为η，S'h/S'c＝k,0＜k＜1，S'h代表热请求文件的平均大小,S'c代表冷请求文件的平均大小，令th表示高速磁盘传输率，单位为Mb/s，tc表示慢速磁盘传输率，单位为Mb/s，|Dh|/|Dc|＝γ，Dh＝{d1,...,dh,...,de}，Dh代表快速旋转磁盘集合，Dc＝{df,...,dc,...,dn}，Dc代表慢速旋转磁盘集合；在区分冷热磁盘情况下总时间消耗为：其中Rh＝{r1,...rh,...,rb}，Rh代表请求热数据的集合，etotal表示实验过程中的能量总消耗，ph表示高速磁盘积极能耗，单位为J/Mb，ih表示高速磁盘理想时刻能耗，单位为J/s；步骤S2：基于自学习热度数据模型进行数据增量备份：其中，定义F＝{f1,...,fi,...,fm}，F代表文件集合，fi＝{mi,pi}，其中pi表示文件fi当前日期的前...

【专利技术属性】
技术研发人员：张纪林，陈军相，屠康磊，任永坚，万健，蒋从锋，殷昱煜，周丽，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人