System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大数据查询分析,尤其是一种flink多维度关键配置参数智能筛选方法与系统。
技术介绍
1、随着大数据时代的到来,各种业务场景每天都有海量的数据产生。flink作为目前热度最高的流处理大数据引擎,可以有效的处理实时流数据,已经被许多互联网公司广泛应用。然而,flink为了满足功能的需求,提供了300多项配置参数,包括cpu核数,任务使用的内存,运行过程中的消息大小等。这些配置参数在程序运行过程中对资源调度与分配起着重要作用。同时还有一些配置参数如端口号,web ui配置等与flink程序的性能无关。合理的调整配置参数可以有效提高程序运行的性能,反之,会造成集群资源浪费甚至程序启动失败的问题。
2、如何调整配置参数来提高flink程序运行过程中的性能是目前比较关注的问题。flink由于配置参数维度过大,在调整配置参数时复杂度过高。如何降低配置参数的维度,筛选关键的配置参数进行调整,对flink的性能调优尤为重要。
3、目前,大数据框架的配置参数调优的方法主要包括两种,一种是手动调参,基于专家经验,对特定的flink程序任务调整个别配置参数来提高性能,这种方法的时间成本较高,且需要专业的知识背景,不具有普适性。另一种是大数据框架的配置参数自动调优,基于机器学习算法,收集程序运行过程中的配置参数,构建性能预测模型进而选取配置参数。然而大量的配置参数导致机器学习预测的时间成本较高,且准确率降低,不具有通用性。因此,在配置参数调优之前的关键配置参数筛选至关重要,且不同程序对应的需要调整的配置参数不同,不
技术实现思路
1、为解决上述现有技术问题,本专利技术提供一种flink多维度关键配置参数智能筛选方法与系统。
2、本专利技术提出了一种flink多维度关键配置参数智能筛选方法,包括:
3、s1,通过语义识别,初步筛选flink程序运行过程中的配置参数;
4、s2,对s1初步筛选后的配置参数进行性能测试,筛选影响性能指标的关键配置参数;
5、s3,对关键配置参数进行随机取值并运行程序,获取程序运行过程中的性能指标perf,采用关键配置参数以及性能指标perf构建样本集;
6、s4,采用样本集构建基于随机梯度提升树算法的性能模型,并对模型构建过程中的关键配置参数进行特征重要性排序和筛选;
7、s5,对s4筛选得到的关键配置参数进行线性相关性降维,得到最终的关键配置参数。
8、优选地,所述s1根据待筛选配置参数的flink程序所在flink框架的版本号,获取该版本号对应的flink程序运行过程中的默认配置参数及其语义解释,根据设定的语义判别规则对语义解释进行判别,去除语义解释与性能无关的配置参数,实现多维度配置参数的初步筛选。
9、优选地,所述s2将s1初步筛选后的配置参数在设定的取值范围内变化,收集flink程序在不同的配置参数下的性能指标,筛选对性能指标影响超出设定程度的关键配置参数。
10、优选地,所述性能指标包括系统性能指标,资源性能指标,flink集群性能指标,其中,系统性能指标为程序运行过程总的吞吐量和延迟;资源性能指标为程序运行过程中的cpu,内存,网络的变化量,磁盘的读写速率的变化量;flink集群性能指标为程序运行过程中通过集群监控指标flink metrics收集的jvm,gc,运行组件的变化量。
11、优选地,所述s3将关键配置参数在设定的取值范围内随机取值,获取flink程序运行过程中的吞吐量、p99延迟,进而得到性能指标perf=吞吐量/p99延迟。
12、优选地,所述s4中,随机梯度提升树算法采用样本集中关键配置参数为输入,性能指标perf为输出,构建性能模型;并采用特征重要性排序算法对模型构建过程中的关键配置参数进行特征重要性排序,筛选并去除模型构建过程中特征重要性低于预设值的关键配置参数。
13、优选地,所述s5采用主成分分析法筛选并去除线性相关性超出设定标准的关键配置参数,得到最终的关键配置参数。
14、本专利技术提出了一种flink多维度关键配置参数智能筛选系统,包括:
15、初步筛选模块,用于通过语义识别,初步筛选flink程序运行过程中的配置参数;
16、性能测试模块,用于对初步筛选后的配置参数进行性能测试,筛选影响性能指标的关键配置参数;
17、样本集构建模块,用于对关键配置参数进行随机取值并运行程序,获取程序运行过程中的性能指标perf,采用关键配置参数以及性能指标perf构建样本集;
18、特征重要性筛选模块,用于采用样本集构建基于随机梯度提升树算法的性能模型,并对模型构建过程中的关键配置参数进行特征重要性排序和筛选;
19、线性相关性降维模块,用于对筛选得到的关键配置参数进行线性相关性降维,得到最终的关键配置参数。
20、一种终端,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行所述方法的步骤。
21、计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述方法的步骤。
22、本专利技术的有益效果体现在:
23、1.从多个维度、多性能指标层次筛选关键的配置参数,具体通过语义识别与性能无显著相关性的flink配置参数,通过系统性能指标,资源性能指标和flink集群性能指标实现多层次筛选flink关键配置参数,可以有效提取对flink程序性能显著影响的配置参数,其可在flink程序正式执行前确定的配置参数集,相较于默认的配置参数集,方便后续进行参数调优,从而有效的提高程序的性能,可以有效避免flink程序因为配置参数不合理而导致程序运行失败的情况。
24、2.通过机器学习算法随机梯度提升树的的特征重要性排序算法和主成分分析算法降低配置参数维度,有利于后续配置参数调整时节约计算资源和运行时间。
25、3.可实现自动化筛选,只需要输入待运行的flink程序和flink的版本,就可以得到该flink程序在该版本下的一套关键配置参数集,不需要专业的调参知识背景,节约了人力成本,通过筛选关键配置参数,有利于降低配置参数调优的时间开销和提高优化的准确率。
26、4本文档来自技高网...
【技术保护点】
1.一种Flink多维度关键配置参数智能筛选方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种Flink多维度关键配置参数智能筛选方法,其特征在于:
3.根据权利要求1所述的一种Flink多维度关键配置参数智能筛选方法,其特征在于:
4.根据权利要求3所述的一种Flink多维度关键配置参数智能筛选方法,其特征在于:
5.根据权利要求1所述的一种Flink多维度关键配置参数智能筛选方法,其特征在于:
6.根据权利要求1所述的一种Flink多维度关键配置参数智能筛选方法,其特征在于:
7.根据权利要求1所述的一种Flink多维度关键配置参数智能筛选方法,其特征在于:
8.一种Flink多维度关键配置参数智能筛选系统,利用权利要求1至7任一项所述的方法,其特征在于,所述系统包括:
9.一种终端,包括处理器及存储介质;其特征在于:
10.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
【技术特征摘要】
1.一种flink多维度关键配置参数智能筛选方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种flink多维度关键配置参数智能筛选方法,其特征在于:
3.根据权利要求1所述的一种flink多维度关键配置参数智能筛选方法,其特征在于:
4.根据权利要求3所述的一种flink多维度关键配置参数智能筛选方法,其特征在于:
5.根据权利要求1所述的一种flink多维度关键配置参数智能筛选方法,其特征在于:
6.根据权利要...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。