【技术实现步骤摘要】
基于机器学习的冷热数据分离方法、系统、设备及介质
[0001]本公开实施例涉及数据识别
,尤其涉及一种基于机器学习的冷热数据分离方法、系统、设备及介质。
技术介绍
[0002]目前,随着集群数据的不断增长积累,对数据的访问频度也会呈现不同的巨大差异。通常情况下最近写入的数据访问频率会比很久之前的数据高很多,此时这些数据被认为是“热(HOT)”的。通过分析可以发现,随着时间的推移,初始写入时被认为是“热”的数据,访问频次会逐渐下降。当每周仅被访问几次时,就转变为“温(WARM)”数据。在此后的1~3个月里,当数据一次都未被访问,或频率降低到一个月几次或几个月一次时,它就被定义为“冷(COLD)”数据。设计新的冷热数据分离存储机制,可以通过改进数据存储在不同介质以提升读数据过程的效率,从而减少系统的复杂度。然后结合层级化数据存储特性,提出在分布式平台存储的海量数据的冷热数据分离方法,对冷热数据存储位置进行准确定位和快速提取数据,提高整体系统的存取性能。实现多维度,多类型,动态变化的融合型管理框架。
[0003]目前 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的冷热数据分离方法,其特征在于,包括:获取已分类的历史数据请求作为训练集;对所述训练集进行预处理操作,得到热数据集和冷数据集;根据待分类请求的数据量,利用高斯混合模型的最大期望混合聚类方法进行聚类,得到第一分类结果,其中,所述第一分类结果为所述热数据集和所述冷数据集的任一种;根据所述待分类请求的逻辑地址,利用K近邻分类算法进行分类,得到第二分类结果,其中,所述第二分类结果为所述热数据集和所述冷数据集的任一种;判断所述第一分类结果与所述第二分类结果是否相同;若是,则判定所述待分类请求的类型与所述第一分类结果相同;若否,则采用最近邻原则对所述第一分类结果和所述第二分类结果进行修正,以及,根据修正结果将所述待分类请求的数据分别至不同数据类型对应的存储节点上并更新所述热数据集。2.根据权利要求1所述的方法,其特征在于,所述对所述训练集进行预处理操作,得到热数据集和冷数据集的步骤,包括:利用预设的数据剪辑方法筛除所述历史数据请求中的错误分类样本,以及,利用预设的数据压缩方法剔除所述历史数据请求中每个类的预设数量的数据量,得到所述热数据集和所述冷数据集。3.根据权利要求1所述的方法,其特征在于,所述根据待分类请求的数据量,利用高斯混合模型的最大期望混合聚类方法进行聚类,得到第一分类结果的步骤,包括:将所述热数据集和所述冷数据集随机初始化得到对应的聚类中心和高斯分布参数;根据所述热数据集和所述冷数据集的高斯分布参数计算所述待分类请求中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。