【技术实现步骤摘要】
异构大数据分布式集群存储优化方法
[0001]本专利技术涉及数据处理
,具体为异构大数据分布式集群存储优化方法。
技术介绍
[0002]近年来,随着大数据时代的蓬勃发展,大数据分布式集群作为云计算的存储基础发挥着越来越重要的作用。现有的异构大数据分布式集群存储优化方法有四个缺陷:
[0003](1)未根据数据块访问频率动态和大小调整副本存储策略
[0004]理想的分布式集群存储优化技术根据数据块访问频率和数据块大小这两个因素,将动态副本存储策略分为三步:1)首先根据集群内所有数据块访问频率确定数据块副本个数和存储介质是否需要变化;2)针对需要改变的副本个数和存储介质的数据块大小确定是否需要合并小文件;3)根据副本调整策略将需要合并后的小文件和大文件改变副本个数和存储介质。因在调整副本个数和存储介质过程中,会产生文件的复制、删除和移动操作,故需通过合并小文件降低对集群节点的内存、磁盘I/O资源的消耗。而现有的分布式集群存储优化技术在调整副本策略时未考虑数据块大小的因素,导致在副本调整过程中,产生了非必要的内存、磁盘I/O资源的消耗,对集群本身的数据处理任务效率产生了影响;
[0005](2)未根据数据处理任务类型选择硬件资源最优的集群节点
[0006]在商用分布式集群中,由于业务发展一般不会有较大的变动,故支撑业务系统的数据处理任务所需要的数据表、计算逻辑及其本身的任务类型相对来说较为固定,其主要分为I/O密集型和计算密集型两种任务,这两种任务对集群节点的硬件需求不一致,如I/0密 ...
【技术保护点】
【技术特征摘要】
1.异构大数据分布式集群存储优化方法,其特征在于,具体包括以下步骤:步骤1,数据预处理:使用大数据集群管理工具和分布式存储平台的操作日志收集集群节点的状态数据和HDFS访问数据,作为样本数据;通过空值处理、数据标准化处理和类别型特征处理手段对样本数据预处理操作;步骤2,通过建立分布式数据块特征模型和分布式集群节点综合评估模型两个模型,分别对数据块特征和分布式集群节点进行预测评估,得出未来一段时间的数据块的热度值和节点状态情况,为制定优化策略提供数据支撑;步骤3,制定优化策略是执行策略的基础,根据建立数学优化模型预测出的结果动态调整数据存储优化策略包含设置副本的数量、存副本储介质、副本存储的位置和小文件合并操作;步骤4,大数据分布式集群存储优化策略在每天数据处理任务集中运行前1小时运行,以便减少对集群存储空间的消耗;步骤5,收集截止数据处理任务运行时的分布式集群数据块特征、数据处理任务运行时的分布式集群节点特征、分布式集群数据块特征模型预测值及实际值、分布式集群节点特征模型预测值及实际值并持久化到mysql数据库中,用以持续提升分布式集群数据块特征模型和分布式集群节点特征模型的准确度;步骤6,将步骤5中收集的分布式集群数据块特征模型数据和分布式集群节点特征模型数据分别回流至分布式集群数据块特征数据集和分布式集群节点评价指标数据集中,便于优化模型评估准确度。2.根据权利要求1所述的异构大数据分布式集群存储优化方法,其特征在于,所述步骤1具体包括以下步骤:步骤1.1,空值处理利用Python将含有空值的数据行筛选出,对空值进行插值处理,综合对比利用拉格朗日插值法、牛顿插值法、KNN插值及KNN插值改进方法,最终选择重心拉格朗日插值法对数据集空值进行插值处理,插值函数如下:公式(1)中:n表示数据集的总行数,x表示空值的位置,x
i
、x
j
表示自变量的值(或位置),ω
i
表示重心权重,y
i
表示自变量(或位置)为x
i
时的取值;步骤1.2,数据标准化处理为了避免数据样本特征之间的量纲影响和过拟合问题,故利用Python对数据样本进行标准化处理,标准化处理选择z
‑
score函数,z
‑
score函数如下:其中:u代表样本的均值,σ代表样本数据的标准差;1.3类别型特征处理利用Python将含有的类别型特征筛选出,将类别型特征处理转换成数值性特征,
Categorical函数对数据集中类别型特征进行处理。3.根据权利要求1所述的异构大数据分布式集群存储优化方法,其特征在于,所述步骤2具体包括以下步骤:步骤2.1分布式数据块特征模型分布式数据块特征模型分为基于GRU神经网络的数据块热度预测算法和基于ARIMA
‑
LSTM混合模型的数据块分类算法两部分;基于GRU神经网络的数据块热度预测算法为:通过GRU神经网络预测数据块热度,并根据数据块热度得出适合...
【专利技术属性】
技术研发人员:黑新宏,李杨,王一川,高文,杨明松,朱磊,姬文江,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。