一种数据冷热生命周期管理的方法和装置制造方法及图纸

技术编号:37348565 阅读:20 留言:0更新日期:2023-04-22 21:45
本发明专利技术涉及计算机技术领域,提供了一种数据冷热生命周期管理的方法和装置,其中,所述方法包括:构建温度预测模型;根据温度预测模型,得到各组数据的预测温度;根据各组数据的预测温度,对数据的温度进行决策,并构建以系统的综合性能最优为目标的调度策略模型;求解调度策略模型,得到最优的调度策略,根据最优的调度策略进行数据调度,并计算得到各组数据的最优温度;根据各组数据的最优温度,对温度预测模型进行反向优化,以优化后续温度预测的结果。本发明专利技术通过调度对温度预测模型进行反向优化,从而降低劣质数据对温度预测模型的影响,确保数据冷热分离的准确性,使最终温度预测的结果为系统的调度提供更高的参考价值。测的结果为系统的调度提供更高的参考价值。测的结果为系统的调度提供更高的参考价值。

【技术实现步骤摘要】
一种数据冷热生命周期管理的方法和装置


[0001]本专利技术涉及计算机
,特别是涉及一种数据冷热生命周期管理的方法和装置。

技术介绍

[0002]数据库中存放的数据通常有冷热之分,我们认为频繁被访问的数据称为热数据(hot data),与之相对的,访问不频繁甚至在一段时间内都不会被访问的数据称之为冷数据(cold data)。所以可以依据数据冷热程度将数据存储在不同的介质上,在保证系统性能的前提下最大程度的降低存储成本或整体上获得更高的性能。所有如何评估数据的冷热程度(为数据进行温度判定)一直都是数据库研究领域中的一大热点。
[0003]针对数据的冷热程度,最直接的衡量依据为未来该数据的访问概率,即未来访问概率较大的数据为热数据,而被访问概率较小或不再被访问的数据则为冷数据。在实际应用中,无法预测数据未来的访问情况,因而在数据库中通常会制定其他的衡量办法以期能“预测”未来的访问情况,进而对数据的冷热程度进行表示。
[0004]在现有技术中,冷热数据的分离通常是通过使用大批量标记的数据进行机器学习实现的,具体的,由专家预先通过人工标注数据的冷热,再使用标注过的数据使用相应的机器学习算法进行训练,使用训练的结果进行实际数据的冷热分离。在这种实现方式下,标注数据的准确性将直接影响到数据冷热分离的效果,当标注数据较为劣质时,最终得到的数据冷热分离效果也不尽人意。且现有技术中对于数据冷热的分类仅考虑数据的访问频率,对于数据的存储区域的类型、成本甚至存储介质的性能特征等,均未能纳入考量,导致最终分离得到的数据冷热度无法与实际的存储环境相结合,无法精准地反应对于通过数据的冷热度进行数据存储调度的参考价值。
[0005]鉴于此,克服该现有技术所存在的缺陷是本
亟待解决的问题。

技术实现思路

[0006]本专利技术要解决的技术问题是标注数据的优劣程度直接影响数据冷热分离的效果,当标注数据较劣质时,数据冷热分离的效果较差。
[0007]本专利技术采用如下技术方案:
[0008]第一方面,本专利技术提供了一种数据冷热生命周期管理的方法,包括:
[0009]使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型;根据所述温度预测模型,对系统中的各组数据进行温度预测,得到各组数据的预测温度;
[0010]根据各组数据的预测温度,确定各组数据所对应的温度变异范围,在对应的温度变异范围内,对数据的温度进行决策,并构建以系统的综合性能最优为目标的调度策略模型;求解所述调度策略模型,得到最优的调度策略,根据所述最优的调度策略进行数据调度;
[0011]其中,在求解所述调度策略模型的每一次模拟调度中,为各组数据进行温度的决
策,得到各组数据对应的决策温度,以各组数据的当前所在存储介质为调度前存储介质,并根据各组数据的决策温度所在的温度区间,确定各组数据的调度后存储介质,从而进行模拟调度;所述温度区间是根据上一次模拟调度中各组数据的决策温度划分得到的,每个温度区间对应一个存储介质;在第一次模拟调度中,所述温度区间是根据各组数据的预测温度划分得到的;
[0012]根据数据调度前后系统的综合性能变化,计算得到各组数据的最优温度;根据所述各组数据的最优温度,对所述温度预测模型进行反向优化,以优化后续温度预测的结果。
[0013]优选的,所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,具体包括:
[0014]对所述冷热数据训练集中的各特征向量进行归一化,将归一化后的特征向量输入至基于Bert的双向transformer网络,进行特征学习,以构建得到温度预测模型。
[0015]优选的,所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,还包括使用已标注的验证数据集对所述温度预测模型进行优化,具体包括:
[0016]将所述已标注的验证数据集中的已标注数据输入至所述温度预测模型中,得到已标注数据的预测温度;
[0017]根据已标注数据的标注温度和已标注数据的预测温度,使用交叉熵损失优化分类器,计算得到交叉熵损失;
[0018]根据所述交叉熵损失,使用梯度下降算法,对所述温度预测模型进行优化。
[0019]优选的,所述构建以系统的综合性能最优为目标的调度策略模型,具体包括:
[0020]根据各组数据的温度、数据占用空间大小、数据存储时长、数据价值,以及各组数据所在存储介质的存储成本、各组数据在对应存储介质中的访问速率,生成以系统的综合性能最高为目标的目标函数;
[0021]根据各组数据的数据占用空间大小、各存储介质的存储空间容量、调度前系统的存储成本、调度后系统的存储成本和调度总成本,生成约束函数;
[0022]结合所述目标函数和所述约束函数,建立所述调度策略模型。
[0023]优选的,所述约束函数包括存储空间约束函数和调度成本约束函数;
[0024]所述存储空间约束函数具体为:
[0025]针对每一个存储介质,均满足存储介质中所存储的数据组所占用的空间大小不大于存储介质的实际容量;
[0026]所述调度成本约束函数具体为:
[0027]调度后系统的总存储成本与调度成本的和小于调度前系统的总存储成本。
[0028]优选的,所述目标函数具体为:
[0029]系统的总存储成本加上系统的总调度成本得到系统的总成本,使用系统的性能评分乘以目标系数k,再除以系统的总成本所得的值;
[0030]其中,所述系统的总存储成本具体为,以第i组数据的实际占用空间乘以第i组数据所在存储介质的存储成本得到第i组数据的第一数值;
[0031]使用第i组数据的第一数值减去第i组数据的存储价值,得到第i组数据的剩余存储价值,以所述第i组数据的剩余存储价值作为真数,以自然数e为底数,进行对数运算,得到第i组数据的第二数值;
[0032]以所述第i组数据的第二数值与第i组数据的存储时长相乘得到第i组数据的存储成本,将每组数据的存储成本相加得到系统的总存储成本;
[0033]所述系统的性能评分具体为,
[0034]将第i组数据的温度和第i组数据的实际访问速率相乘,再除以第i组数据的实际占用空间得到第i组数据的第三数值;
[0035]将每组数据的第三数值相加得到第四数值,使用存储空间容量除以所述第四数值得到系统的性能评分;
[0036]所述总调度成本具体为:
[0037]将每组数据的调度成本相加得到系统的总调度成本。
[0038]优选的,所述第i组数据的实际访问速率和所述第i组数据的存储成本根据第i组数据的温度决定,具体包括:
[0039]根据第i组数据的温度所对应的温度区间,确定第i组数据的存储介质;
[0040]将第i组数据的存储介质的单位价值、第i组数据的存储时长和第i组数据的实际占用空间相乘得到第i组数据的存储成本;
[0041]以所述第i组数据的存储介质的实际访问速率作为所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据冷热生命周期管理的方法,其特征在于,包括:使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型;根据所述温度预测模型,对系统中的各组数据进行温度预测,得到各组数据的预测温度;根据各组数据的预测温度,确定各组数据所对应的温度变异范围,在对应的温度变异范围内,对数据的温度进行决策,并构建以系统的综合性能最优为目标的调度策略模型;求解所述调度策略模型,得到最优的调度策略,根据所述最优的调度策略进行数据调度;其中,在求解所述调度策略模型的每一次模拟调度中,为各组数据进行温度的决策,得到各组数据对应的决策温度,以各组数据的当前所在存储介质为调度前存储介质,并根据各组数据的决策温度所在的温度区间,确定各组数据的调度后存储介质,从而进行模拟调度;所述温度区间是根据上一次模拟调度中各组数据的决策温度划分得到的,每个温度区间对应一个存储介质;在第一次模拟调度中,所述温度区间是根据各组数据的预测温度划分得到的;根据数据调度前后系统的综合性能变化,计算得到各组数据的最优温度;根据所述各组数据的最优温度,对所述温度预测模型进行反向优化,以优化后续温度预测的结果。2.根据权利要求1所述的数据冷热生命周期管理的方法,其特征在于,所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,具体包括:对所述冷热数据训练集中的各特征向量进行归一化,将归一化后的特征向量输入至基于Bert的双向transformer网络,进行特征学习,以构建得到温度预测模型。3.根据权利要求2所述的数据冷热生命周期管理的方法,其特征在于,所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,还包括使用已标注的验证数据集对所述温度预测模型进行优化,具体包括:将所述已标注的验证数据集中的已标注数据输入至所述温度预测模型中,得到已标注数据的预测温度;根据已标注数据的标注温度和已标注数据的预测温度,使用交叉熵损失优化分类器,计算得到交叉熵损失;根据所述交叉熵损失,使用梯度下降算法,对所述温度预测模型进行优化。4.根据权利要求1所述的数据冷热生命周期管理的方法,其特征在于,所述构建以系统的综合性能最优为目标的调度策略模型,具体包括:根据各组数据的温度、数据占用空间大小、数据存储时长、数据价值,以及各组数据所在存储介质的存储成本、各组数据在对应存储介质中的访问速率,生成以系统的综合性能最高为目标的目标函数;根据各组数据的数据占用空间大小、各存储介质的存储空间容量、调度前系统的存储成本、调度后系统的存储成本和调度总成本,生成约束函数;结合所述目标函数和所述约束函数,建立所述调度策略模型。5.根据权利要求4所述的数据冷热生命周期管理的方法,其特征在于,所述约束函数包括存储空间约束函数和调度成本约束函数;所述存储空间约束函数具体为:针对每一个存储介质,均满足存储介质中所存储的数据组所占用的空间大小不大于存储介质的实际容量;
所述调度成本约束函数具体为:调度后系...

【专利技术属性】
技术研发人员:陈尧关婷婷徐杰李明春刘小川刘彬彬黎洪张旭
申请(专利权)人:烽火通信科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1