数据处理、预测模型训练方法和设备技术

技术编号:32633370 阅读:35 留言:0更新日期:2022-03-12 18:07
本申请实施例提供数据处理、预测模型训练方法和设备。该方法包括:根据目标数据及目标数据的访问记录,确定特征信息;将特征信息输入预测模型,得到目标数据未来被访问的时间信息;预测模型通过训练样本训练得到,训练样本包括样本特征、样本时间标签及样本类型,样本时间标签及样本类型是由样本采样时段内一随机时间前后是否有样本特征对应数据的访问记录确定的;根据时间信息,对目标数据进行冷热数据识别。将样本时间标签作为训练样本的标签,对预测模型进行训练,进而基于预测模型模型对目标数据的下次访问发生的时间间隔作为预测结果,根据时间间隔大小实现对目标数据进行冷热数据识别,从而能够有效提高对目标数据进行冷热识别的准确率。进行冷热识别的准确率。进行冷热识别的准确率。

【技术实现步骤摘要】
数据处理、预测模型训练方法和设备


[0001]本申请涉及计算机领域,尤其涉及数据处理、预测模型训练方法和设备。

技术介绍

[0002]随着数据处理需求的快速发展,数据存储成本大大增加。在数据存储过程中发现,这些数据往往具备鲜明的冷热特征,也就是,某几个区域中的数据是属于访问频率比较高的数据,另几个区域中的数据则很少处于访问状态。如果大量冷数据占据高性能设备,会造成存储资源浪费。
[0003]现有技术当中,会采用不同类型的存储介质和存储方式,对冷热数据分别进行存储。在对数据进行冷热数据分离之前,需要能够对混合数据进行准确的识别并分离。可以采用制定识别规则的方式,对冷热数据进行识别,比如,基于LRU/LFU/LIRS/Exponential Decay等规则实现冷热数据识别的方法。另一类是基于机器学习的方式,将数据历史访问特征来预测未来一段时间数据会不会被访问。然而,通过上述方式所得到的识别结果准确率比较低。因此,需要一种能够提升的对冷热数据识别准确率的方案。

技术实现思路

[0004]为解决或改善现有技术中存在的问题,本申本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,所述方法包括:根据目标数据及所述目标数据的访问记录,确定特征信息;将所述特征信息输入预测模型,得到所述目标数据未来被访问的时间信息;其中,所述预测模型通过训练样本训练得到,所述训练样本包括样本特征、样本时间标签及样本类型,所述样本时间标签及样本类型是由样本采样时段内一随机时间前后是否有样本特征对应数据的访问记录确定的;根据所述时间信息,对所述目标数据进行冷热数据识别。2.根据权利要求1所述的方法,所述预测模型的训练方式包括:构建训练样本;将所述训练样本输入预测模型,得到预测结果;根据所述预测结果、样本时间标签及样本类型,对所述预测模型中的参数进行优化;其中,所述预测模型用于识别冷热数据的。3.根据权利要求2所述的方法,所述根据所述预测结果、样本时间标签及样本类型,对所述预测模型中的参数进行优化,包括:确定预测结果与所述样本时间标签的对应关系;根据所述样本类型与所述对应关系的匹配结果,对所述预测模型中的参数进行优化。4.根据权利要求3所述的方法,所述样本类型与所述对应关系的匹配结果,包括:若所述样本类型为无删失类型,且所述对应关系为所述预测结果对应的时间信息小于所述样本时间标签,则确定所述样本类型与所述对应关系匹配;若所述样本类型为有删失类型,且所述对应关系为所述预测结果对应的时间信息大于所述样本时间标签,则确定所述样本标签类型与所述对应关系匹配。5.根据权利要求2所述的方法,所述构建训练样本,包括:获取样本数据在采样时段内的访问记录;在所述采样时段中设置一随机时刻对所述采样时段拆分得到特征提取时段和观测窗口时段;基于所述样本数据集所述特征提取时段内的访问记录,生成样本特征;查找所述随机时刻后是否有针对所述样本数据的至少一个访问记录;有针对所述样本数据的至少一个访问记录时,根据所述随机时刻及所述至少一个访问记录,确定所述样本时间标签,并将样本类型设置为无删失类型;有针对所述样本数据的至少一个访问记录时,根据所述随机时刻及观测窗口的终止时刻,确定所述样本时间标签,并将样本类型设置为有删失类型。6.根据权利要求5所述的方法,还包括:调整所述随机时刻;查找调整后的所述随机时刻之后是否有针对所述样本数据的至少一个访问记录,以便根据查找结果确定样本时间标签及样本类型。7.根据权利要求5所述的方法,所述根据所述随机时刻及所述至少...

【专利技术属性】
技术研发人员:张腾谭剑李飞飞
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1