一种针对Hadoop数据平台的扩容资源预测方法及系统技术方案

技术编号:34444240 阅读:31 留言:0更新日期:2022-08-06 16:37
本申请涉及一种针对Hadoop数据平台的扩容资源预测方法及系统,包括以下步骤:基于日志库的历史样本数据训练预测模型;将当前特定时段数据集输入到预测模型,得出下一特定时段的预测数据集;将当前特定时段数据集的数据分为范围内数据以及范围外数据;将范围内数据分为低热力度访问数据、高热力度访问数据;将低热力度访问数据从HDD以及DDR调出存入SSD,将高热力度访问数据从HDD以及SSD中调出存入DDR。本申请通过对下一特定时段的数据进行预测,优化了数据存储结构,提升了访问速度,使服务器的性能和存储空间的利用率得到非常高的提升;在存储不足时,能够提前对企业人员作出扩容提示,使得数据平台能够稳定运行。使得数据平台能够稳定运行。使得数据平台能够稳定运行。

【技术实现步骤摘要】
一种针对Hadoop数据平台的扩容资源预测方法及系统


[0001]本申请涉及数据平台运营资源调配领域,尤其是涉及一种针对Hadoop数据平台的扩容资源预测方法及系统。

技术介绍

[0002]随着网络技术的发展,越来越多的服务通过网络来提供,其中,通过网络平台来处理用户的消费、查询或者操作,用户基于网络平台提供的选项进行自助操作,以达到特定目的。hadoop是一个由Apache基金会所开发的分布式系统基础架构。它可以使用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。hadoop的框架最核心的设计就是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。
[0003]针对上述中的相关技术,随着数据平台的数据的增长,而存储问题是无法绕开的话题,构建私有存储集群需要预留足够的内存成本很高,普通的机械硬盘与固态硬盘读取数据较慢,不适合高频率的数据调取,采用云存储数据虽然比私有存储成本部分低,但安全性和租用存储空间费用长时间存储也是不小的消耗,亟待改进。<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种针对Hadoop数据平台的扩容资源预测方法,其特征在于,包括以下步骤:获取日志库的样本数据,基于日志库的历史样本数据训练预测模型;获取当前特定时段数据集;将当前特定时段数据集输入到预测模型,得出下一特定时段的预测数据集;基于预测数据集将当前特定时段数据集的数据分为范围内数据以及范围外数据;计算范围内数据的数据访问热力度,根据预置的热力度基准值将范围内数据分为低热力度访问数据、高热力度访问数据;将低热力度访问数据从HDD以及DDR调出存入SSD,将高热力度访问数据从HDD以及SSD中调出存入DDR。2.根据权利要求1所述的一种针对Hadoop数据平台的扩容资源预测方法,其特征在于,在基于预测数据集将当前特定时段数据集的数据分为范围内数据以及范围外数据后,还包括以下步骤:根据预先生成的使用频率的热力图,获取范围外数据的数据频率;根据数据频率,计算频率方差;比较数据频率与频率方差,将范围外数据分为高频数据和低频数据;将DDR中的高频数据存储至SSD,将DDR中的低频数据存储至HDD。3.根据权利要求1所述的一种针对Hadoop数据平台的扩容资源预测方法,其特征在于,在将低频数据存储至HDD中,还包括以下步骤:采用压缩写入的方式将低频数据存储至HDD。4.根据权利要求1所述的一种针对Hadoop数据平台的扩容资源预测方法,其特征在于,在基于日志库的历史样本数据训练预测模型中,还包括以下步骤:提取日志库的历史样本数据的使用率影响特征以及历史时段;将使用率影响特征以及关联的当前历史时段并输入初始模型以训练初始模型直至初始模型召回率达到预设的期望值,输出预测模型。5.根据权利要求4所述的一种针对Hadoop数据平台的扩容资源预测方法,其特征在于:所述使用率影响特征包括数据历史增长率、数据历史使用率以及业务模式。6.根据权利要求4所述的一种针对Hadoop数据平台的扩容资源预测方法,其特征在于:所述初始模型采用LSTM 模型。7.根据权利要求1所述的一种针对Hadoop数据平台的扩容资源预测方法,...

【专利技术属性】
技术研发人员:谭竞成于洋高经郡
申请(专利权)人:北京科杰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1