System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种计算数据温度并进行分层存储管理的方法技术_技高网

一种计算数据温度并进行分层存储管理的方法技术

技术编号:40580366 阅读:8 留言:0更新日期:2024-03-06 17:23
本发明专利技术涉及一种计算数据温度并进行分层存储管理的方法,属于计算机数据处理领域。根据数据访问时间、数据访问次数、数据属性和发出访问的用户属性,构建数据温度计算模型,管理数据在本地热数据库、本地冷数据库和远程冷数据库之间动态迁移,将新产生的数据和本地温度升高的冷数据存储在热数据库,周期性进行时间驱动的迁移,将预测下周期即将被迁移至热数据库的数据和当前温度较高的数据存储在热数据库,基于单位数据存储在远程相比于存储在本地的收益,决定冷数据是否需要迁移至远程。本发明专利技术能够在保证数据访问性能的前提下大幅降低费用支出,预测新数据量,平衡热存储空间利用率和数据迁移开销,挖掘数据周期性迁移规律预迁移数据,避免迁移存在时间滞后的问题。

【技术实现步骤摘要】

本专利技术属于计算机数据处理领域,具体涉及一种计算数据温度并进行分层存储管理的方法


技术介绍

1、数据中心的主要功能之一就是对数据的存储。近年来,数据中心的数据量以指数级的速度迅速增加,人们对数据管理和处理能力的需求日益增长,这对数据中心的存储能力提出了更高的要求。为了应对数据量的急剧增加,必须考虑对数据进行冷热识别,将数据分配到不同的存储介质上进行存储,以实现数据访问响应速度和数据中心运营成本之间的平衡。

2、hdd机械硬盘作为最常用的存储设备,价格较低但读取速度较慢,无法满足高速访问的需求,适合作为冷数据库的存储设备。相反,固态硬盘ssd的读取速度较快,但其价格较高,不能大规模应用,适合作为热数据库的存储设备。

3、当前大多发达城市土地开发接近饱和,水电等基础物质供应也处于紧张状态,而一些内陆地区新能源发展成效显著,电价更低,气温也相对较低,适合建设数据中心,“东数西存”得到了广泛的重视和发展,如何在新的数据管理需求和形势下进行数据管理是一个亟待研究和解决的问题。

4、在一段时间内,数据的访问满足“二八定律”,即大部分访问集中在小部分数据上。数据的冷热程度描述了被使用的频繁程度,热数据通常指被频繁访问的数据,冷数据指被访问频率较低,但需长期保留的数据。如果能够准确地识别数据的冷热程度,我们就可以把频繁使用的数据存储到本地性能更优的ssd上,把使用频率中等的数据存储到本地成本更低的hdd中,把使用频率较低的数据存储到远程容量更大的hdd中,实现数据分层存储。

5、对冷热数据识别的研究中,最常见的解决方法是缓存替换的两大经典算法lru(least recently used)和lfu(least frequently used)。但lru在面对偶发性、周期性数据访问时性能较差;lfu在访问模式经常变化时性能较差。后人在lru和lfu的基础上提出了lru-k和lfu-aging,lru-k在lru的基础上增加了计数器来统计数据访问次数,只有当数据访问次数达到k次时,数据才会进入热存储空间中;

6、lfu-aging在lfu的基础上增加了对访问时间的约束,来避免历史访问次数较多的数据驻留在热存储空间的问题。但利用简单的数据结构识别冷热数据无法在任意访问模式下都保持良好的性能。近年来出现了用数据温度值衡量数据热度的方法,但仍然只评估了访问时间、访问频率和访问关联性等基本访问特征,没有考虑数据访问中用户和数据的重要程度对数据热度的影响。


技术实现思路

1、本专利技术所要解决的技术问题是:

2、为了解决现有冷热数据识别方法中只评估了访问时间、访问频率和访问关联性等基本访问特征,没有考虑数据访问中用户和数据的重要程度对数据热度的影响,以及在对数据的存储管理中只考虑了本地不同介质的存储管理,没有综合考虑本地与远程的存储管理,本专利技术提供一种计算数据温度并进行分层存储管理的方法。

3、为了解决上述技术问题,本专利技术采用的技术方案为:

4、一种计算数据温度并进行分层存储管理的方法,其特征在于,包括:

5、根据数据访问时间、数据访问次数、数据属性和发出访问的用户属性,构建数据温度计算模型;

6、根据数据从冷数据库迁移至热数据库的时间,挖掘数据周期性迁移规律;

7、本地冷热数据存储管理:根据数据温度和数据周期性迁移规律,管理本地数据在本地冷热数据库之间迁移,迁移分为事件驱动的迁移和时间驱动的迁移,所述事件驱动包括新数据产生和本地冷数据温度升高;时间驱动为周期性发生;

8、本地与远程数据存储管理:根据数据温度,管理数据在本地数据库和远程数据库之间迁移,迁移为事件驱动的迁移,所述事件驱动包括远程冷数据温度升高和本地冷数据库存储空间不足。

9、本专利技术进一步的技术方案:所述的数据温度计算模型描述如下:

10、为新数据设定初始温度,将该新数据产生时热数据的平均温度设定为新数据的初始温度;初始温度的计算公式为:

11、

12、其中,hotdatacount表示热数据的个数,thotdata(i)表示第i个热数据的温度;

13、提升被访问后的数据温度,计算公式为:

14、tnew=tpre+α+β×i+γ×q

15、其中,i和q表示发出访问的用户属性和数据属性,tpre为访问前数据的温度,α、β和γ分别表示在一次访问中,基础访问、用户属性和数据属性对温度贡献的权重;

16、周期性降低数据温度,计算公式为:

17、tnew=δ*tpre

18、其中,tpre为降低之前的数据温度,δ为温度削弱系数。

19、本专利技术进一步的技术方案:挖掘数据周期性迁移规律的具体方法如下:

20、用二维数组coldtohotperiod[d,y]记录冷数据d第y次被迁移至热数据库所在的周期数;当冷数据d第y次被迁移至热数据库,且y≥4时,计算:

21、gapi=coldtohot[d,y-i]-coldtohot[d,y-i-1],i=0,1,2

22、若满足:

23、gap0=gap1=gap2

24、则认为冷数据d从冷数据库到热数据库的迁移具有周期性规律,周期gap为:

25、gap=gap0=gap1=gap2

26、预测下次迁移发生在第n周期,n的计算公式为:

27、n=coldtohot[d,y]+gap

28、在第n-1周期末对数据d进行预迁移,每条规律的有效期为m个周期gap。

29、本专利技术进一步的技术方案:在本地冷热数据存储管理中,所述新数据时发生迁移描述如下:

30、将新数据存放至本地热数据库,若热数据库可用存储空间不足,需要按照温度由低到高的顺序淘汰若干热数据至本地冷数据库。

31、本专利技术进一步的技术方案:在本地冷热数据存储管理中,所述本地冷数据温度升高时发生迁移描述如下:

32、在冷数据被访问且温度更新后,判断其温度是否达到了热数据温度标准值,若是,则将其迁移至热数据库以满足数据访问需要;

33、若热数据库可用存储空间不足,需要按照温度由低到高的顺序淘汰若干热数据至本地冷数据库。

34、本专利技术进一步的技术方案:在本地冷热数据存储管理中,所述时间驱动的迁移具体方法如下:

35、设置迁移周期,在每个周期末进行本地冷热数据库之间的数据迁移,将预测下个周期即将被迁移至热数据库的数据以及当前温度最高的数据存储在热数据库,同时保证迁移完成后热数据库已用存储空间不超过上限阈值;

36、步骤1-1:计算上限阈值;

37、上限阈值表示时间驱动的迁移完成后热数据库已用存储空间的上限;基于lstm预测下个周期产生的新数据量e,用c表示热数据库总存储容量,上限阈ζ值的计算公式为:

38、本文档来自技高网...

【技术保护点】

1.一种计算数据温度并进行分层存储管理的方法,其特征在于,包括:

2.根据权利要求1所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,所述的数据温度计算模型描述如下:

3.根据权利要求1所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,挖掘数据周期性迁移规律的具体方法如下:

4.根据权利要求1所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,在本地冷热数据存储管理中,所述新数据产生时发生迁移描述如下:

5.根据权利要求1所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,在本地冷热数据存储管理中,所述本地冷数据温度升高时发生迁移描述如下:

6.根据权利要求1所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,在本地冷热数据存储管理中,所述时间驱动的迁移具体方法如下:

7.根据权利要求5所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,基于LSTM预测下个周期产生的新数据量的具体方法如下:

8.根据权利要求1所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,在本地与远程数据存储管理中,所述远程冷数据温度升高时发生迁移描述如下:

9.根据权利要求3或4或8所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,热数据库存储空间不足时淘汰热数据的具体方法如下:

10.根据权利要求1所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,在本地与远程数据存储管理中,所述本地冷数据库存储空间不足时发生迁移描述如下:

...

【技术特征摘要】

1.一种计算数据温度并进行分层存储管理的方法,其特征在于,包括:

2.根据权利要求1所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,所述的数据温度计算模型描述如下:

3.根据权利要求1所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,挖掘数据周期性迁移规律的具体方法如下:

4.根据权利要求1所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,在本地冷热数据存储管理中,所述新数据产生时发生迁移描述如下:

5.根据权利要求1所述的一种计算数据温度并进行分层存储管理的方法,其特征在于,在本地冷热数据存储管理中,所述本地冷数据温度升高时发生迁移描述如下:

6.根据权利要求1所述的一种计算数据温度并进行分层存储管理的...

【专利技术属性】
技术研发人员:王云岚马世聪赵天海谷建华侯正雄李秀春
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1