节点性能检测方法和装置制造方法及图纸

技术编号:29199920 阅读:14 留言:0更新日期:2021-07-10 00:33
本公开是关于一种节点性能检测方法和装置。涉及分布式计算领域,解决了缺乏对分布式计算系统性能分析机制的问题。该方法包括:获取集群中各节点的历史任务的运行数据;分析所述历史任务的运行数据;根据分析结果,确定各节点的性能。本公开提供的技术方案适用于分布式计算节点集群性能探测,实现了低成本、高效率、准确的节点性能检测。准确的节点性能检测。准确的节点性能检测。

【技术实现步骤摘要】
节点性能检测方法和装置


[0001]本公开涉及分布式计算领域,尤其涉及一种节点性能检测方法和装置。

技术介绍

[0002]在大规模分布式计算服务中,计算节点集群的规模可达到数千台物理机或虚拟机,所有的计算服务运行在各节点上。但由于节点性能参差不齐,在分布式计算服务中,虽已经为宕机节点配置了容错能力,但是也受到木桶理论的限制,用户作业(job)最终的运行时间取决于计算任务所有拆分任务(task)中运行时间最长的task所消耗的时间。在某此task运行时间过长的情况下,无法在短时间内快速定位影响性能、导致任务运行慢的原因,也无法自动且准确的探测确定异常节点。虽然通过基本硬件健康信息或者系统日志能够判断发生异常的位置,但由于集群众多,且机器机型差异性也比较大,无法统一硬件信息检查的入口,因此探测成本非常高。且很多情况下探测结果表明机器系统日志及硬件并没有异常,但是性能确实存在问题(可能由于硬件老化等其他原因造成)。
[0003]综上,缺乏对分布式计算服务性能进行分析的有效机制。

技术实现思路

[0004]为克服相关技术中存在的问题,本公开提供一种用于分布式计算系统中的节点性能检测方法和装置。
[0005]根据本公开实施例的第一方面,提供一种用于分布式计算系统中的节点性能检测方法,包括:
[0006]获取集群中各节点的历史任务的运行数据;
[0007]分析所述历史任务的运行数据;
[0008]根据分析结果,确定各节点的性能。
[0009]优选的,所述获取集群中各节点的历史任务的运行数据的步骤包括:
[0010]周期性的获取集群中各节点的历史任务的运行数据。
[0011]优选的,所述历史任务的运行数据包括任务指标数据和任务明细数据;
[0012]其中,所述任务指标数据至少包括以下数据中的任一或任意多项:
[0013]所述历史任务的数量、历史任务的类型、各类型的历史任务的平均运行时间,一个类型的历史任务的平均运行时间为该类型的所述历史任务的总运行时间/该类型的所述历史任务的个数;
[0014]所述任务明细数据至少包括以下数据中的任一或任意多项:
[0015]执行所述历史任务的节点的身份信息、各个历史任务的运行时间;
[0016]所述分析所述历史任务的运行数据的步骤包括:
[0017]确定各历史任务的实际超发倍数,所述实际超发倍数为:
[0018]该所述历史任务的运行时间/所述历史任务的平均执行时间;
[0019]遍历分析所述历史任务,从中筛选出实际超发倍数超过预设的标准超发倍数的历
史任务;
[0020]当所述历史任务的实际超发倍数大于所述标准超发倍数时,确定执行所述历史任务的节点为所述历史任务的实际执行节点;
[0021]针对每个实际超发倍数超过预设的标准超发倍数的所述历史任务生成超发记录;
[0022]所述超发记录至少包括以下信息:
[0023]所述历史任务的实际执行节点,该所述历史任务的实际超发倍数。
[0024]优选的,所述根据分析结果,确定各节点的性能的步骤包括:
[0025]对所生成的所有超发记录进行处理,确定每个节点作为实际执行节点出现的频次和平均超发倍数,得到分析信息,
[0026]所述节点的平均超发倍数为所述节点对应的所有超发记录中实际超发倍数的平均值,
[0027]所述分析信息至少包括以下信息中的任一或任意多项:
[0028]所述节点的身份信息,所述节点出现的频次,所述节点的平均超发倍数;
[0029]根据所述节点出现的频次和/或平均超发倍数,对各节点进行排序;
[0030]根据排序确定节点的性能。
[0031]优选的,该方法还包括:
[0032]判定符合预设的低性能标准的节点为低性能节点,所述低性能标准至少包含以下条件中的任一个或任意多个:
[0033]节点出现的频次大于预设的频次数量阈值,
[0034]节点的平均超发倍数大于预设的节点超发倍数阈值。
[0035]优选的,所述历史任务类型为映射map任务或还原reduce任务。
[0036]优选的,所述历史任务的运行数据包括执行过程中被中止的任务信息,所述分析所述历史任务的运行数据的步骤包括:
[0037]遍历所述历史任务的运行数据,生成各节点的节点性能数据,所述节点性能数据至少包括节点的身份信息以及该节点上被中止的任务数量。
[0038]优选的,所述根据分析结果,确定各节点的性能的步骤包括:
[0039]按照节点上被中止的任务数量降序的规则对各个节点进行排序;
[0040]根据排序确定所述节点的性能。
[0041]优选的,该方法还包括:
[0042]判定符合预设的低性能标准的节点为低性能节点,所述低性能标准至少包含以下条件:
[0043]节点上被中止的任务数量超过预设的节点中止任务数量阈值。
[0044]根据本公开的实施例的第二方面,提供了一种用于分布式计算系统中的节点性能检测装置,包括:
[0045]数据获取模块,用于获取集群中各节点的历史任务的运行数据;
[0046]数据分析模块,用于分析所述历史任务的运行数据;
[0047]性能分析模块,用于根据分析结果,确定各节点的性能。
[0048]优选的,所述历史任务的运行数据包括任务指标数据和任务明细数据;
[0049]其中,所述任务指标数据至少包括以下数据中的任一或任意多项:
[0050]所述历史任务的数量、历史任务的类型、各类型的历史任务的平均运行时间,一个类型的历史任务的平均运行时间为该类型的所述历史任务的总运行时间/该类型的所述历史任务的个数,
[0051]所述任务明细数据至少包括以下数据中的任一或任意多项:
[0052]执行所述历史任务的节点的身份信息、各个历史任务的运行时间,
[0053]所述数据分析模块包括:
[0054]超发倍数计算子模块,用于确定各历史任务的实际超发倍数,所述实际超发倍数为:
[0055]所述历史任务的实际执行时间/所述历史任务的平均执行时间;
[0056]任务筛选子模块,用于遍历分析所述历史任务,从中筛选出实际超发倍数超过预设的标准超发倍数的历史任务;
[0057]执行节点确定子模块,用于当所述历史任务的实际超发倍数大于所述标准超发倍数时,确定执行所述历史任务的节点为所述历史任务的实际执行节点;
[0058]超发记录生成子模块,用于针对每个实际超发倍数超过预设的标准超发倍数的所述历史任务生成超发记录;
[0059]所述超发记录至少包括以下信息:
[0060]所述历史任务的实际执行节点,所述历史任务的实际超发倍数。
[0061]优选的,所述性能分析模块包括:
[0062]记录处理子模块,用于对所生成的所有超发记录进行处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于分布式计算系统中的节点性能检测方法,其特征在于,包括:获取集群中各节点的历史任务的运行数据;分析所述历史任务的运行数据;根据分析结果,确定各节点的性能。2.根据权利要求1所述的节点性能检测方法,其特征在于,所述获取集群中各节点的历史任务的运行数据的步骤包括:周期性的获取集群中各节点的历史任务的运行数据。3.根据权利要求1所述的节点性能检测方法,其特征在于,所述历史任务的运行数据包括任务指标数据和任务明细数据;其中,所述任务指标数据至少包括以下数据中的任一或任意多项:所述历史任务的数量、历史任务的类型、各类型的历史任务的平均运行时间,一个类型的历史任务的平均运行时间为该类型的所述历史任务的总运行时间/该类型的所述历史任务的个数;所述任务明细数据至少包括以下数据中的任一或任意多项:执行所述历史任务的节点的身份信息、各个历史任务的运行时间;所述分析所述历史任务的运行数据的步骤包括:确定各历史任务的实际超发倍数,所述实际超发倍数为:该所述历史任务的运行时间/所述历史任务的平均执行时间;遍历分析所述历史任务,从中筛选出实际超发倍数超过预设的标准超发倍数的历史任务;当所述历史任务的实际超发倍数大于所述标准超发倍数时,确定执行所述历史任务的节点为所述历史任务的实际执行节点;针对每个实际超发倍数超过预设的标准超发倍数的所述历史任务生成超发记录;所述超发记录至少包括以下信息:所述历史任务的实际执行节点,该所述历史任务的实际超发倍数。4.根据权利要求3所述的节点性能检测方法,其特征在于,所述根据分析结果,确定各节点的性能的步骤包括:对所生成的所有超发记录进行处理,确定每个节点作为实际执行节点出现的频次和平均超发倍数,得到分析信息,所述节点的平均超发倍数为所述节点对应的所有超发记录中实际超发倍数的平均值,所述分析信息至少包括以下信息中的任一或任意多项:所述节点的身份信息,所述节点出现的频次,所述节点的平均超发倍数;根据所述节点出现的频次和/或平均超发倍数,对各节点进行排序;根据排序确定节点的性能。5.根据权利要求4所述的节点性能检测方法,其特征在于,该方法还包括:判定符合预设的低性能标准的节点为低性能节点,所述低性能标准至少包含以下条件中的任一个或任意多个:节点出现的频次大于预设的频次数量阈值,节点的平均超发倍数大于预设的节点超发倍数阈值。
6.根据权利要求1的所述节点性能检测方法,其特征在于,所述历史任务类型为映射map任务或还原reduce任务。7.根据权利要求1所述的节点性能检测方法,其特征在于,所述历史任务的运行数据包括执行过程中被中止的任务信息,所述分析所述历史任务的运行数据的步骤包括:遍历所述历史任务的运行数据,生成各节点的节点性能数据,所述节点性能数据至少包括节点的身份信息以及该节点上被中止的任务数量。8.根据权利要求7所述的节点性能检测方法,其特征在于,所述根据分析结果,确定各节点的性能的步骤包括:按照节点上被中止的任务数量降序的规则对各个节点进行排序;根据排序确定所述节点的性能。9.根据权利要求7所述的节点性能检测方法,其特征在于,该方法还包括:判定符合预设的低性能标准的节点为低性能节点,所述低性能标准至少包含以下条件:节点上被中止的任务数量超过预设的节点中止任务数量阈值。10.一种用于分布式计算系统中的节点性能检测装置,其特征在于,包括:数据获取模块,用于获取集群中各节点的历史任务的运行数据;数据分析模块,用于分析所述历史任务的运行数据;性能分析模块,用于根据分析结果,确定各节点的性能。11.根据权利要求10所述的节点性能检测装置,其特征在于,所述历史任务的运行数据包括任务指标数据和任务明细数据;其中,所述任务指...

【专利技术属性】
技术研发人员:刘志杰
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1