【技术实现步骤摘要】
一种数据冷热生命周期管理的方法和装置
[0001]本专利技术涉及计算机
,特别是涉及一种数据冷热生命周期管理的方法和装置。
技术介绍
[0002]数据库中存放的数据通常有冷热之分,我们认为频繁被访问的数据称为热数据(hot data),与之相对的,访问不频繁甚至在一段时间内都不会被访问的数据称之为冷数据(cold data)。所以可以依据数据冷热程度将数据存储在不同的介质上,在保证系统性能的前提下最大程度的降低存储成本或整体上获得更高的性能。所有如何评估数据的冷热程度(为数据进行温度判定)一直都是数据库研究领域中的一大热点。
[0003]针对数据的冷热程度,最直接的衡量依据为未来该数据的访问概率,即未来访问概率较大的数据为热数据,而被访问概率较小或不再被访问的数据则为冷数据。在实际应用中,无法预测数据未来的访问情况,因而在数据库中通常会制定其他的衡量办法以期能“预测”未来的访问情况,进而对数据的冷热程度进行表示。
[0004]在现有技术中,冷热数据的分离通常是通过使用大批量标记的数据进行机器学习实现的,具体的,由专家预先通过人工标注数据的冷热,再使用标注过的数据使用相应的机器学习算法进行训练,使用训练的结果进行实际数据的冷热分离。在这种实现方式下,标注数据的准确性将直接影响到数据冷热分离的效果,当标注数据较为劣质时,最终得到的数据冷热分离效果也不尽人意。且现有技术中对于数据冷热的分类仅考虑数据的访问频率,对于数据的存储区域的类型、成本甚至存储介质的性能特征等,均未能纳入考量,导致最终分离得到的数 ...
【技术保护点】
【技术特征摘要】
1.一种数据冷热生命周期管理的方法,其特征在于,包括:使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型;根据所述温度预测模型,对系统中的各组数据进行温度预测,得到各组数据的预测温度;根据各组数据的预测温度,确定各组数据所对应的温度变异范围,在对应的温度变异范围内,对数据的温度进行决策,并构建以系统的综合性能最优为目标的调度策略模型;求解所述调度策略模型,得到最优的调度策略,根据所述最优的调度策略进行数据调度;其中,在求解所述调度策略模型的每一次模拟调度中,为各组数据进行温度的决策,得到各组数据对应的决策温度,以各组数据的当前所在存储介质为调度前存储介质,并根据各组数据的决策温度所在的温度区间,确定各组数据的调度后存储介质,从而进行模拟调度;所述温度区间是根据上一次模拟调度中各组数据的决策温度划分得到的,每个温度区间对应一个存储介质;在第一次模拟调度中,所述温度区间是根据各组数据的预测温度划分得到的;根据数据调度前后系统的综合性能变化,计算得到各组数据的最优温度;根据所述各组数据的最优温度,对所述温度预测模型进行反向优化,以优化后续温度预测的结果。2.根据权利要求1所述的数据冷热生命周期管理的方法,其特征在于,所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,具体包括:对所述冷热数据训练集中的各特征向量进行归一化,将归一化后的特征向量输入至基于Bert的双向transformer网络,进行特征学习,以构建得到温度预测模型。3.根据权利要求2所述的数据冷热生命周期管理的方法,其特征在于,所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,还包括使用已标注的验证数据集对所述温度预测模型进行优化,具体包括:将所述已标注的验证数据集中的已标注数据输入至所述温度预测模型中,得到已标注数据的预测温度;根据已标注数据的标注温度和已标注数据的预测温度,使用交叉熵损失优化分类器,计算得到交叉熵损失;根据所述交叉熵损失,使用梯度下降算法,对所述温度预测模型进行优化。4.根据权利要求1所述的数据冷热生命周期管理的方法,其特征在于,所述构建以系统的综合性能最优为目标的调度策略模型,具体包括:根据各组数据的温度、数据占用空间大小、数据存储时长、数据价值,以及各组数据所在存储介质的存储成本、各组数据在对应存储介质中的访问速率,生成以系统的综合性能最高为目标的目标函数;根据各组数据的数据占用空间大小、各存储介质的存储空间容量、调度前系统的存储成本、调度后系统的存储成本和调度总成本,生成约束函数;结合所述目标函数和所述约束函数,建立所述调度策略模型。5.根据权利要求4所述的数据冷热生命周期管理的方法,其特征在于,所述约束函数包括存储空间约束函数和调度成本约束函数;所述存储空间约束函数具体为:针对每一个存储介质,均满足存储介质中所存储的数据组所占用的空间大小不大于存储介质的实际容量;
所述调度成本约束函数具体为:调度后系...
【专利技术属性】
技术研发人员:陈尧,关婷婷,徐杰,李明春,刘小川,刘彬彬,黎洪,张旭,
申请(专利权)人:烽火通信科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。