【技术实现步骤摘要】
一种用于数据分级混合存储的冷热数据识别方法
[0001]本专利技术涉及数据存储
,具体涉及一种用于数据分级混合存储的冷热数据识别方法。
技术介绍
[0002]数据库中存放的数据通常有冷热之分,我们认为频繁被访问的数据称为热数据(hot data),与之相对的,访问不频繁甚至在一段时间内都不会被访问的数据称之为冷数据(cold data)。所以可以依据数据冷热程度将数据存储在不同的介质上,在保证系统性能的前提下最大程度的降低存储成本或整体上获得更高的性能。所有如何评估数据的冷热程度(为数据进行温度判定)一直都是数据库研究领域中的一大热点。
[0003]针对数据的冷热程度,最直接的衡量依据为未来该数据的访问概率,即未来访问概率较大的数据为热数据,而被访问概率较小或不再被访问的数据则为冷数据。在实际应用中,无法预测数据未来的访问情况,因而在数据库中通常会制定其他的衡量办法以期能“预测”未来的访问情况,进而对数据的冷热程度进行表示。目前,识别冷热数据大多依赖于LRU等特定的数据结构,利用数据的相对位置来判定数据的冷热, ...
【技术保护点】
【技术特征摘要】
1.一种用于数据分级混合存储的冷热数据识别方法,其特征在于:该方法采用基于LSTM的数据温度预测模型对数据温度进行预测;以数据的温度属性作为数据的冷热程度的识别依据,并且模型假设当前温度较低的数据,在未来被访问的概率也比较低,所以视为冷数据,当前温度较高的数,在未来被访问的概率高,所以视为热数据;将数据的冷热程度定义为数据温度的高低:数据的冷热程度等同于数据温度的高低;模型的训练样本来自于对文件的历史访问数据进行记录行为文件的访问日志;然后根据日志信息,计算各类文件操作在时间轴上的变化趋势,挖掘文件访问的时间特性,并按照合适的时间窗口整理成文件的时序访问特征序列,构建出用于进行训练的数据;对训练数据进行访问热度划分,预定义热度级别按0,1,
…
,n
‑
1标记训练集中的数据;构建的数据集中就蕴含着文件本身的访问热度信息,然后将数据集划分为训练集和测试集,输入到循环神经网络中进行训练,模型训练完成后经测试集进行验证,验证完成后进行模型封装。2.根据权利要求1所述的用于数据分级混合存储的冷热数据识别方法,其特征在于:其具体步骤如下:S1、数据采集:在文件日志中对文件的历史访问数据进行采集;S2、数据预处理:对采集到的数据进行预处理,对数据进行热度划分,并将数据局划分为训练集和测试集;S3、模型训练:训练集输入预测模型,对模型进行训练;S4、模型验证:将测试集输入训练好的模型,对模型效果进行验证;S5、模型封装使用,将验证好的模型进行封装,投入到使用中;S6、根据温度预测结果,将数据存入到不同的介质中。3.根据权利要求1所述的用于数据分级混合存储的冷热数据识别方法,其特征在于:根据访问的频率来划分数据的冷热程度;采用对训练集中的数据进行访问热度划分,定义热度级别按0,1,
…
,n
‑
1,标记训练集中的数据;N个热度标签分别使用one
‑
hot编码转换为0和1组成的稀疏向量;然后将数据集划分为训练集和测试集,输入到LSTM神经网络中进行训练;LSTM使用时间记忆单元用以记录当前时刻的状态,一般称为长短期记忆神经网络的细胞与每个细胞相连的有遗忘门f
t
、输入门i
t
和输出门o
t
这3个信息传递开关门,其中,x
t
为预测模型的输入,h
t
为LSTM输出,h
t
‑1为上一时刻LSTM的输出,C
t
为细胞状态,C
t
‑1为上一时刻的细胞状态...
【专利技术属性】
技术研发人员:胡昌平,侍守创,刘彩云,朱大鹏,姜厚禄,闫四洋,胡翔宇,孟祥慈,李红星,王纪潼,徐雷,左刚,单文金,吕从飞,尹玉峰,韩占港,许永正,董奇,
申请(专利权)人:江苏杰瑞信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。