异构大数据分布式集群存储优化方法技术

技术编号:37196484 阅读:15 留言:0更新日期:2023-04-20 22:54
本发明专利技术公开了异构大数据分布式集群存储优化方法,具体包括:步骤1,数据预处理;步骤2,分别对数据块特征和分布式集群节点进行预测评估;步骤3,根据建立数学优化模型预测出的结果动态调整数据副本存储优化策略;步骤4,大数据分布式集群存储优化策略在每天数据处理任务集中运行前1小时运行;步骤5,将收集截止数据持久化到mysql数据库中;步骤6,将步骤5中收集的分布式集群数据块特征模型数据和分布式集群节点特征模型数据分别回流至分布式集群数据块特征数据集和分布式集群节点评价指标数据集中。在对业务系统无影响的前提下,通过对数据副本存储策略动态调整,实现提高集群数据处理任务效率和存储空间利用率的目标。据处理任务效率和存储空间利用率的目标。据处理任务效率和存储空间利用率的目标。

【技术实现步骤摘要】
异构大数据分布式集群存储优化方法


[0001]本专利技术涉及数据处理
,具体为异构大数据分布式集群存储优化方法。

技术介绍

[0002]近年来,随着大数据时代的蓬勃发展,大数据分布式集群作为云计算的存储基础发挥着越来越重要的作用。现有的异构大数据分布式集群存储优化方法有四个缺陷:
[0003](1)未根据数据块访问频率动态和大小调整副本存储策略
[0004]理想的分布式集群存储优化技术根据数据块访问频率和数据块大小这两个因素,将动态副本存储策略分为三步:1)首先根据集群内所有数据块访问频率确定数据块副本个数和存储介质是否需要变化;2)针对需要改变的副本个数和存储介质的数据块大小确定是否需要合并小文件;3)根据副本调整策略将需要合并后的小文件和大文件改变副本个数和存储介质。因在调整副本个数和存储介质过程中,会产生文件的复制、删除和移动操作,故需通过合并小文件降低对集群节点的内存、磁盘I/O资源的消耗。而现有的分布式集群存储优化技术在调整副本策略时未考虑数据块大小的因素,导致在副本调整过程中,产生了非必要的内存、磁盘I/O资源的消耗,对集群本身的数据处理任务效率产生了影响;
[0005](2)未根据数据处理任务类型选择硬件资源最优的集群节点
[0006]在商用分布式集群中,由于业务发展一般不会有较大的变动,故支撑业务系统的数据处理任务所需要的数据表、计算逻辑及其本身的任务类型相对来说较为固定,其主要分为I/O密集型和计算密集型两种任务,这两种任务对集群节点的硬件需求不一致,如I/0密集型任务相较于其它硬件资源来说对磁盘I/O和内存更为敏感,而计算密集型则对CPU频率及CPU利用率和内存更为敏感。基于上述背景,理想的工程做法为:针对集群内所有数据处理任务根据其任务类型将所需的数据块提前放置到所需硬件资源更高的节点上,便于数据处理任务的快速执行,尽量避免因高性能节点在执行完自己的任务后去申请远地的Map备份任务过程中产生网络拥塞,使得集群内数据处理任务效率降低。而现有的分布式集群存储优化技术在调整副本放置位置时未考虑数据处理任务类型的影响,可能会导致数据块存放位置在数据处理任务的对应硬件资源较差的节点上,进而在数据处理任务执行过程中出现网络拥塞的情况,最终使得集群内数据处理任务效率降低;
[0007](3)副本策略调整过程中未考虑集群节点实时性能
[0008]在数据副本调整过程中可能需要调整数据块存储节点,会产生节点间的数据迁移操作,会消耗集群节点网络、内存、磁盘I/O资源,对集群内业务正常运行产生影响。而现有的分布式集群存储优化技术在副本策略调整过程中未考虑节点的性能和实时负载情况,容易导致集群出现负载失衡现象,影响业务系统的正常运行;
[0009](4)未完成模型的数据闭环
[0010]现有的分布式集群存储优化技术基本都是通过机器学习算法对数据块特征和集群节点性能特征进行分析挖掘来预测数据块在未来一段时间的使用频率和集群性能。一般来说,机器学习算法的准确度随着数据集的增加而提升。而现有的集群存储优化技术没有
对分布式集群数据块特征、分布式集群节点特征和模型预测值及实际值持续收集,导致分布式集群数据访问特征评估模型和分布式集群节点性能特征评估模型无法随着模型的持续运行来提升模型准确度。
[0011]因此有必要提出一种异构大数据分布式集群存储优化方法。

技术实现思路

[0012]本专利技术公开了一种异构大数据分布式集群存储优化方法,针对I/O密集型和计算密集型数据处理任务,使用神经网络算法对数据块特征和大数据分布式集群的节点状态进行分析挖掘并针对性的提出存储优化策略,并将模型预测结果数据回流,用来提高大数据分布式集群副本优化策略的效果。
[0013]为实现上述目的,本专利技术提供如下技术方案:异构大数据分布式集群存储优化方法,具体包括以下步骤:
[0014]步骤1,数据预处理:使用大数据集群管理工具和分布式存储平台的操作日志收集集群节点的状态数据和HDFS访问数据,通过空值处理、数据标准化处理和类别型特征处理手段对样本数据预处理操作;
[0015]步骤2,通过建立分布式数据块特征模型和分布式集群节点综合评估模型两个模型,分别对数据块特征和分布式集群节点进行预测评估,得出未来一段时间的数据块的热度值和节点状态情况,为制定优化策略提供数据支撑;
[0016]步骤3,制定优化策略是执行策略的基础,根据建立数学优化模型预测出的结果动态调整数据副本存储策略,包含副本的数量、副本存储介质、副本存储的位置和小文件的合并操作;
[0017]步骤4,大数据分布式集群存储优化策略在每天数据处理任务集中运行前1小时运行,以便减少对集群存储空间的消耗;
[0018]步骤5,收集截止数据处理任务运行时的分布式集群数据块特征、数据处理任务运行时的分布式集群节点特征、分布式集群数据块特征模型预测值及实际值、分布式集群节点特征模型预测值及实际值并持久化到mysql数据库中,用以持续提升分布式集群数据块特征模型和分布式集群节点特征模型的准确度;
[0019]步骤6,将步骤5中收集的分布式集群数据块特征模型数据和分布式集群节点特征模型数据分别回流至分布式集群数据块特征数据集和分布式集群节点评价指标数据集中,便于优化模型评估准确度。
[0020]优选的,所述步骤1具体包括以下步骤:
[0021]步骤1.1,空值处理
[0022]利用Python将含有空值的数据行筛选出,对空值进行插值处理,综合对比利用拉格朗日插值法、牛顿插值法、KNN插值及KNN插值改进方法,最终选择重心拉格朗日插值法对数据集空值进行插值处理,插值函数如下:
[0023][0024]公式(1)中:n表示数据集的总行数,x表示空值的位置,x
i
、x
j
表示自变量的值(或位置),ω
i
表示重心权重,y
i
表示自变量(或位置)为x
i
时的取值;
[0025]步骤1.2,数据标准化处理
[0026]为了避免数据样本特征之间的量纲影响和过拟合问题,故利用Python对数据样本进行标准化处理,标准化处理选择z

score(标准分数)函数,z

score函数如下:
[0027]其中:u代表样本的均值,σ代表样本数据的标准差;
[0028]1.3类别型特征处理
[0029]利用Python将含有的类别型特征筛选出,将类别型特征处理转换成数值性特征,Categorical函数对数据集中类别型特征进行处理。
[0030]优选的,所述步骤2具体包括以下步骤:
[0031]步骤2.1分布式数据块特征模型
[0032]分布式数据块特征模型分为基于GRU(门控循环)神经网络的数据块热度预测算法和基于ARIMA

LSTM(差分自回归移动平均模型

长短期本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.异构大数据分布式集群存储优化方法,其特征在于,具体包括以下步骤:步骤1,数据预处理:使用大数据集群管理工具和分布式存储平台的操作日志收集集群节点的状态数据和HDFS访问数据,作为样本数据;通过空值处理、数据标准化处理和类别型特征处理手段对样本数据预处理操作;步骤2,通过建立分布式数据块特征模型和分布式集群节点综合评估模型两个模型,分别对数据块特征和分布式集群节点进行预测评估,得出未来一段时间的数据块的热度值和节点状态情况,为制定优化策略提供数据支撑;步骤3,制定优化策略是执行策略的基础,根据建立数学优化模型预测出的结果动态调整数据存储优化策略包含设置副本的数量、存副本储介质、副本存储的位置和小文件合并操作;步骤4,大数据分布式集群存储优化策略在每天数据处理任务集中运行前1小时运行,以便减少对集群存储空间的消耗;步骤5,收集截止数据处理任务运行时的分布式集群数据块特征、数据处理任务运行时的分布式集群节点特征、分布式集群数据块特征模型预测值及实际值、分布式集群节点特征模型预测值及实际值并持久化到mysql数据库中,用以持续提升分布式集群数据块特征模型和分布式集群节点特征模型的准确度;步骤6,将步骤5中收集的分布式集群数据块特征模型数据和分布式集群节点特征模型数据分别回流至分布式集群数据块特征数据集和分布式集群节点评价指标数据集中,便于优化模型评估准确度。2.根据权利要求1所述的异构大数据分布式集群存储优化方法,其特征在于,所述步骤1具体包括以下步骤:步骤1.1,空值处理利用Python将含有空值的数据行筛选出,对空值进行插值处理,综合对比利用拉格朗日插值法、牛顿插值法、KNN插值及KNN插值改进方法,最终选择重心拉格朗日插值法对数据集空值进行插值处理,插值函数如下:公式(1)中:n表示数据集的总行数,x表示空值的位置,x
i
、x
j
表示自变量的值(或位置),ω
i
表示重心权重,y
i
表示自变量(或位置)为x
i
时的取值;步骤1.2,数据标准化处理为了避免数据样本特征之间的量纲影响和过拟合问题,故利用Python对数据样本进行标准化处理,标准化处理选择z

score函数,z

score函数如下:其中:u代表样本的均值,σ代表样本数据的标准差;1.3类别型特征处理利用Python将含有的类别型特征筛选出,将类别型特征处理转换成数值性特征,
Categorical函数对数据集中类别型特征进行处理。3.根据权利要求1所述的异构大数据分布式集群存储优化方法,其特征在于,所述步骤2具体包括以下步骤:步骤2.1分布式数据块特征模型分布式数据块特征模型分为基于GRU神经网络的数据块热度预测算法和基于ARIMA

LSTM混合模型的数据块分类算法两部分;基于GRU神经网络的数据块热度预测算法为:通过GRU神经网络预测数据块热度,并根据数据块热度得出适合...

【专利技术属性】
技术研发人员:黑新宏李杨王一川高文杨明松朱磊姬文江
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1