一种hadoop参数优化模型的构建方法技术

技术编号:34952334 阅读:14 留言:0更新日期:2022-09-17 12:29
本发明专利技术涉及分布式处理技术领域,尤其涉及一种hadoop参数优化模型的构建方法,包含:利用服务器在一定时间内收集各数据源产生的数据量;分析单个所述数据源的特性,并根据其产生数据量的按比例赋予特征值,并利用服务器根据特征值预估待处理文件规模;服务器以一定时间为周期,收集各预备节点在常规运行状态下的资源存有量,并将其分组;服务器根据所述待处理文件规模,预估节点数量和处理时间;服务器依照服务器预估节点数量和处理时间,对hadoop的参数进行调整。通过分析数据源的特性,赋予特征值,根据特征值预估文件规模,将hadoop分布式节点进行分组,并依据文件规模和节点组对hadoop的参数进行调整,从而节约hadoop项目的资源。资源。资源。

【技术实现步骤摘要】
一种hadoop参数优化模型的构建方法


[0001]本专利技术涉及一种hadoop优化方法,尤其涉及一种hadoop参数优化模型的构建方法。

技术介绍

[0002]随着信息产生的数据日益膨胀,hadoop作为处理和解决大文件的重要手段被广泛应用,在应用中,针对hadoop配置参数的调整对整体的运算效率和资源利用率有着至关重要的作用。中国专利公开号CN104317610A公开了“一种hadoop平台自动安装部署的方法及装置”,利用主机集群对hadoop的末端节点进行装载,并将必要参数调整为缺省参数。中国专利公开号CN103064664A公开了“一种基于性能预估的Hadoop参数自动优化方法和系统”,利用对hadoop项目的模拟运算调节hadoop的参数,使其能降低成本。中国专利公开号为CN104750780A公开了“一种基于统计分析的Hadoop配置参数优化方法”,利用对特征性较强的应用进行分类并建立预测模型,从而指导hadoop的参数优化。
[0003]由此可见,上述方法和系统存在以下问题:当项目的信息源处于多种状态时,难以判断项目的规模,对于hadoop的参数优化也难以达成节约资源的目的的问题。

技术实现思路

[0004]为此,本专利技术提供一种一种hadoop参数优化模型的构建方法。,用以克服现有技术中当项目的信息源处于多种状态时,难以判断项目的规模,对于hadoop的参数优化也难以达成节约资源的目的的问题。
[0005]为实现上述目的,本专利技术提供一种hadoop参数优化模型的构建方法,包含:
[0006]步骤S1,利用服务器在一定时间内收集各数据源产生的数据量并分析单格数据源在预设时间内产生数据的最大值和最小值;
[0007]步骤S2,根据经验分析单个所述数据源的特性并录入所述服务器,所述服务器根据各数据源产生的数据量的按比例赋予各数据源特征值,并根据特征值预估待处理文件规模;
[0008]步骤S3,所述服务器以一定时间为周期,收集各预备节点在常规运行状态下的资源存有量,并按照资源存有量的大小按时间将预备节点分组;
[0009]步骤S4,所述服务器根据所述待处理文件规模,预估节点数量和处理时间;
[0010]步骤S5,依照所述所述服务器预估的节点数量和处理时间,对hadoop的参数进行调整。
[0011]进一步地,所述数据源在预设周期内产生的数据量为D,D在预设时间T内呈规律性变化;
[0012]对于第i个所述数据源在将预设时间T均匀分为j个时间段中产生的数据量Dij,存在一个最大值maxDij和一个最小值minDij,设定i=1,2,3,

,N,j=1,2,3,

,m。
[0013]进一步地,所述数据源在预设时间T内产生的最大数据量记为maxDT,预设时间T内
产生的最小数据量记为minDT,设定maxDT=maxDij
×
n
×
m,minDT=minDij
×
n
×
m;
[0014]将minDT作为标准文件规模,设定与minDT对应的hadoop标准参数A,并根据预备节点的运行状态以A为基准进行分组。
[0015]进一步地,对于单个所述预备节点,该预备节点的资源存有量R在预设时间T内存在一个最高值maxR,设定一个第一预设资源存有量R1,一个第二预设资源存有量R2,其中R1=0.3maxR,R2=0.7maxR,
[0016]若R<R1,所述服务器判定该所述预备节点资源存有量不足,并将该节点在该情况下的时段记为不可用时段;
[0017]若R1≤R<R2,所述服务器判定该所述预备节点资源存有量较低,并将该节点在该情况下的时段记为低效时段;
[0018]若R≥R2,所述服务器判定该所述预备节点资源存有量较高,并将该节点在该情况下的时段记为高效时段。
[0019]进一步地,对于第k个所述预备节点,在第j个所述时间段内的状态P
kj
赋值,其中k=1,2,3,

,n,
[0020]若所述时段被记为不可用时段,将P
kj
赋值为0,
[0021]若所述时段被记为低效时段,将P
kj
赋值为1,
[0022]若所述时段被记为高效时段,将P
kj
赋值为2,
[0023]利用所述标准参数A,以符合A的最优节点数量NA将所述预备节点进行分组,使该组节点在P
kj
的状态下最优执行时间tA后完成数据量为minDT的项目。
[0024]进一步地,对于第k个所述预备节点,
[0025]当j+t≤T时,
[0026]若P
kj
=P
kj+1


=P
kj+t
≥1,所述服务器将该节点作为(j,j+t)时段的稳定节点记录,并将其纳入分组;
[0027]若P
kj
=P
kj+1


=P
kj+t
=0,所述服务器将该节点作为(j,j+t)时段的不可用节点;
[0028]当j+t>T时,所述服务器判定该节点不可用。
[0029]进一步地,所述最大数据量maxDT与所述最小数据量minDT的均值为的hadoop参数为A

,其中A

的最优节点数量为NA

,最优执行时间为tA

,设定最优节点数量与最优执行时间的函数为f(D),其中f(D)=N
×
t,
[0030]当获得数据量D后,所述服务器根据函数f(D)判断该工作的hadoop参数的调节方式。
[0031]进一步地,所述数据量Dij对应一个该时间段j的特征属性,其特征属性影响数据量Dij的规模,在T时间段内,将Dij与j的特征属性在T时间段内的占比相乘,求和后获得DT的近似值作为预估数据量进行hadoop的参数优化参考数据。
[0032]进一步地,若各所述节点在所述最大数据量maxDT的70%以上情况下不能够布置,该节点群正常运行。
[0033]进一步地,所述预设时间不具有连续性,所述处理时间具有连续性。
[0034]与现有技术相比,本专利技术的有益效果在于,通过分析数据源的特性,赋予特征值,根据特征值预估文件规模,将hadoop分布式节点进行分组,根据文件规模分配节点组,并依
据文件规模和节点组对hadoop的参数进行调整,从而节约hadoop项目的资源。
[0035]进一步地,利用将数据源产生的数据量根据时间和规模进行分类的方式,在避免了因数据源分类不清晰导致的数据规模判断有误的同时,有效提升了数据源的分类效率,从而进一步节约了hadoop项目的资源。
[0036]进一步地,利用获取数据源在一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种hadoop参数优化模型的构建方法,其特征在于,包含:步骤S1,利用服务器在一定时间内收集各数据源产生的数据量并分析单格数据源在预设时间内产生数据的最大值和最小值;步骤S2,根据经验分析单个所述数据源的特性并录入所述服务器,所述服务器根据各数据源产生的数据量的按比例赋予各数据源特征值,并根据特征值预估待处理文件规模;步骤S3,所述服务器以一定时间为周期,收集各预备节点在常规运行状态下各时段的资源存有量,并按照资源存有量的大小按时间将预备节点分组;步骤S4,所述服务器根据所述待处理文件规模,预估节点数量和处理时间;步骤S5,依照所述所述服务器预估的节点数量和处理时间,对hadoop的参数进行调整。2.根据权利要求1所述的hadoop参数优化模型的构建方法,其特征在于,所述数据源在预设周期内产生的数据量为D,D在预设时间T内呈规律性变化;对于第i个所述数据源在将预设时间T均匀分为j个时间段中产生的数据量Dij,存在一个最大值maxDij和一个最小值minDij,设定i=1,2,3,

,N,j=1,2,3,

,m。3.根据权利要求2所述的hadoop参数优化模型的构建方法,其特征在于,所述数据源在预设时间T内产生的最大数据量记为maxDT,预设时间T内产生的最小数据量记为minDT,设定maxDT=maxDij
×
n
×
m,minDT=minDij
×
n
×
m;将minDT作为标准文件规模,设定与minDT对应的hadoop标准参数A,并根据预备节点的运行状态以A为基准进行分组。4.根据权利要求3所述的hadoop参数优化模型的构建方法,其特征在于,对于单个所述预备节点,该预备节点的资源存有量R在预设时间T内存在一个最高值maxR,设定一个第一预设资源存有量R1,一个第二预设资源存有量R2,其中R1=0.3maxR,R2=0.7maxR,若R<R1,所述服务器判定该所述预备节点资源存有量不足,并将该节点在该情况下的时段记为不可用时段;若R1≤R<R2,所述服务器判定该所述预备节点资源存有量较低,并将该节点在该情况下的时段记为低效时段;若R≥R2,所述服务器判定该所述预备节点资源存有量较高,并将该节点在该情况下的时段记为高效时段。5.根据权利要求4所述的hadoop参数优化模型的构建方法,其特征在于,对于第k个所述预备节点,在第j个所述时间段内的状态P
...

【专利技术属性】
技术研发人员:付学良罗小玲潘新
申请(专利权)人:内蒙古农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1