一种数据冷热生命周期管理的方法和装置制造方法及图纸

技术编号:37348565 阅读:41 留言:0更新日期:2023-04-22 21:45
本发明专利技术涉及计算机技术领域,提供了一种数据冷热生命周期管理的方法和装置,其中,所述方法包括:构建温度预测模型;根据温度预测模型,得到各组数据的预测温度;根据各组数据的预测温度,对数据的温度进行决策,并构建以系统的综合性能最优为目标的调度策略模型;求解调度策略模型,得到最优的调度策略,根据最优的调度策略进行数据调度,并计算得到各组数据的最优温度;根据各组数据的最优温度,对温度预测模型进行反向优化,以优化后续温度预测的结果。本发明专利技术通过调度对温度预测模型进行反向优化,从而降低劣质数据对温度预测模型的影响,确保数据冷热分离的准确性,使最终温度预测的结果为系统的调度提供更高的参考价值。测的结果为系统的调度提供更高的参考价值。测的结果为系统的调度提供更高的参考价值。

【技术实现步骤摘要】
一种数据冷热生命周期管理的方法和装置


[0001]本专利技术涉及计算机
,特别是涉及一种数据冷热生命周期管理的方法和装置。

技术介绍

[0002]数据库中存放的数据通常有冷热之分,我们认为频繁被访问的数据称为热数据(hot data),与之相对的,访问不频繁甚至在一段时间内都不会被访问的数据称之为冷数据(cold data)。所以可以依据数据冷热程度将数据存储在不同的介质上,在保证系统性能的前提下最大程度的降低存储成本或整体上获得更高的性能。所有如何评估数据的冷热程度(为数据进行温度判定)一直都是数据库研究领域中的一大热点。
[0003]针对数据的冷热程度,最直接的衡量依据为未来该数据的访问概率,即未来访问概率较大的数据为热数据,而被访问概率较小或不再被访问的数据则为冷数据。在实际应用中,无法预测数据未来的访问情况,因而在数据库中通常会制定其他的衡量办法以期能“预测”未来的访问情况,进而对数据的冷热程度进行表示。
[0004]在现有技术中,冷热数据的分离通常是通过使用大批量标记的数据进行机器学习实现的,具体的,由专家预先通本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据冷热生命周期管理的方法,其特征在于,包括:使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型;根据所述温度预测模型,对系统中的各组数据进行温度预测,得到各组数据的预测温度;根据各组数据的预测温度,确定各组数据所对应的温度变异范围,在对应的温度变异范围内,对数据的温度进行决策,并构建以系统的综合性能最优为目标的调度策略模型;求解所述调度策略模型,得到最优的调度策略,根据所述最优的调度策略进行数据调度;其中,在求解所述调度策略模型的每一次模拟调度中,为各组数据进行温度的决策,得到各组数据对应的决策温度,以各组数据的当前所在存储介质为调度前存储介质,并根据各组数据的决策温度所在的温度区间,确定各组数据的调度后存储介质,从而进行模拟调度;所述温度区间是根据上一次模拟调度中各组数据的决策温度划分得到的,每个温度区间对应一个存储介质;在第一次模拟调度中,所述温度区间是根据各组数据的预测温度划分得到的;根据数据调度前后系统的综合性能变化,计算得到各组数据的最优温度;根据所述各组数据的最优温度,对所述温度预测模型进行反向优化,以优化后续温度预测的结果。2.根据权利要求1所述的数据冷热生命周期管理的方法,其特征在于,所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,具体包括:对所述冷热数据训练集中的各特征向量进行归一化,将归一化后的特征向量输入至基于Bert的双向transformer网络,进行特征学习,以构建得到温度预测模型。3.根据权利要求2所述的数据冷热生命周期管理的方法,其特征在于,所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,还包括使用已标注的验证数据集对所述温度预测模型进行优化,具体包括:将所述已标注的验证数据集中的已标注数据输入至所述温度预测模型中,得到已标注数据的预测温度;根据已标注数据的标注温度和已标注数据的预测温度,使用交叉熵损失优化分类器,计算得到交叉熵损失;根据所述交叉熵损失,使用梯度下降算法,对所述温度预测模型进行优化。4.根据权利要求1所述的数据冷热生命周期管理的方法,其特征在于,所述构建以系统的综合性能最优为目标的调度策略模型,具体包括:根据各组数据的温度、数据占用空间大小、数据存储时长、数据价值,以及各组数据所在存储介质的存储成本、各组数据在对应存储介质中的访问速率,生成以系统的综合性能最高为目标的目标函数;根据各组数据的数据占用空间大小、各存储介质的存储空间容量、调度前系统的存储成本、调度后系统的存储成本和调度总成本,生成约束函数;结合所述目标函数和所述约束函数,建立所述调度策略模型。5.根据权利要求4所述的数据冷热生命周期管理的方法,其特征在于,所述约束函数包括存储空间约束函数和调度成本约束函数;所述存储空间约束函数具体为:针对每一个存储介质,均满足存储介质中所存储的数据组所占用的空间大小不大于存储介质的实际容量;
所述调度成本约束函数具体为:调度后系...

【专利技术属性】
技术研发人员:陈尧关婷婷徐杰李明春刘小川刘彬彬黎洪张旭
申请(专利权)人:烽火通信科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1