引擎选择方法、装置及计算设备制造方法及图纸

技术编号:31009640 阅读:14 留言:0更新日期:2021-11-30 00:05
本发明专利技术实施例涉及大数据技术领域,公开了一种引擎选择方法、装置及计算设备。该方法包括:获取若干SQL训练语句;获取所述SQL训练语句在Hive引擎上运行的第一运行时间,以及所述SQL训练语句在Spark引擎上运行的第二运行时间;根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息;根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值;根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模型,并将训练后的所述预设分类模型作为引擎推荐模型;根据所述引擎推荐模型,进行引擎选择。通过上述方式,本发明专利技术实施例能够合理选择执行引擎,从而提高程序的执行效率。提高程序的执行效率。提高程序的执行效率。

【技术实现步骤摘要】
引擎选择方法、装置及计算设备


[0001]本专利技术实施例涉及大数据
,具体涉及一种引擎选择方法、装置及计算设备。

技术介绍

[0002]Hadoop是一个用于对大量数据进行分布式处理的软件框架,其能够以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop一般包含HDFS、Zookeeper、YARN、Mapreduct(简称MR)、Hive和Spark等组件,常用的Hive和Spark都部署在YARN上,对前端开发人员是无感知的,开发人员可以自主选择运行的方式。
[0003]目前,开发人员一般根据自己的经验选择Hive或Spark作为Hadoop的执行引擎,若选择不当,则容易导致开发的程序效率较低。

技术实现思路

[0004]鉴于上述问题,本专利技术实施例提供了一种引擎选择方法、装置及计算设备,能够合理选择执行引擎,从而提高程序的执行效率。
[0005]根据本专利技术实施例的第一方面,提供了一种引擎选择方法,包括:获取若干SQL训练语句;获取所述SQL训练语句在Hive引擎上运行的第一运行时间,以及所述SQL训练语句在Spark引擎上运行的第二运行时间;根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息;根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值;根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模型,并将训练后的所述预设分类模型作为引擎推荐模型;根据所述引擎推荐模型,进行引擎选择。r/>[0006]在一种可选的方式中,所述根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息,具体包括:若所述第一运行时间小于所述第二运行时间,则确定所述推荐引擎信息为所述Hive引擎的标识信息;若所述第一运行时间大于所述第二运行时间,则确定所述推荐引擎信息为所述Spark引擎的标识信息。
[0007]在一种可选的方式中,所述预设特征变量包括关联变量、聚合变量、统计变量、求和变量、排序变量、合并变量、去重变量;所述根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值,具体包括:在所述SQL训练语句中获取与所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量相同的所述训练特征变量;将所述关联变量的个数、所述聚合变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数确定为所述训练特征变量对应的特征值。
[0008]在一种可选的方式中,所述预设特征变量还包括表大小;所述将所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量的个数确定为所述训练特征变量对应的特征值,具体包括:将所述关联变量的个数、所述聚合
变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数、所述表大小的值确定为所述训练特征变量对应的特征值。
[0009]在一种可选的方式中,所述根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模型,具体包括:将所述训练特征变量、所述训练特征变量对应的特征值输入所述预设分类模型,并获取所述预设分类模型输出的所述Hive引擎的概率值以及所述Spark引擎的概率值;根据所述推荐引擎信息、所述Hive引擎的概率值以及所述Spark引擎的概率值,调整所述预设分类模型的参数,以训练所述预设分类模型。
[0010]在一种可选的方式中,所述预设分类模型为Softmax分类器。
[0011]在一种可选的方式中,所述根据所述引擎推荐模型,进行引擎选择,具体包括:获取待预测SQL语句;根据所述预设特征变量,在所述待预测SQL语句中获取预测特征变量,并确定所述预测特征变量对应的特征值;将所述预测特征变量以及所述预测特征变量对应的特征值输入所述引擎推荐模型,以获取所述引擎推荐模型输出的所述Hive引擎的预测概率值以及所述Spark引擎的预测概率值;根据所述Hive引擎的预测概率值以及所述Spark引擎的预测概率值,进行引擎选择。
[0012]根据本专利技术实施例的第二方面,提供了一种引擎选择装置,包括:第一获取模块,用于获取若干SQL训练语句;
[0013]第二获取模块,用于获取所述SQL训练语句在Hive引擎上运行的第一运行时间,以及所述SQL训练语句在Spark引擎上运行的第二运行时间;确定模块,用于根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息;特征值确定模块,用于根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值;训练模块,用于根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模型,并将训练后的所述预设分类模型作为引擎推荐模型;引擎选择模块,用于根据所述引擎推荐模型,进行引擎选择。
[0014]根据本专利技术实施例的第三方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述的引擎选择方法的操作。
[0015]根据本专利技术实施例的第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算设备上运行时,使得计算设备执行执行上述的引擎选择方法。
[0016]本专利技术实施例通过获取若干SQL训练语句,获取SQL训练语句在Hive引擎上运行的第一运行时间,以及SQL训练语句在Spark引擎上运行的第二运行时间,根据第一运行时间和所述第二运行时间,确定推荐引擎信息,根据预设特征变量,在SQL训练语句中获取训练特征变量,并确定训练特征变量对应的特征值,根据训练特征变量、训练特征变量对应的特征值以及推荐引擎信息,训练预设分类模型,并将训练后的预设分类模型作为引擎推荐模型,根据引擎推荐模型,进行引擎选择,能够在开发和运维人员再技能存在不足的情况下,依靠人工智能快速而准确的选择一个合理的执行引擎,从而能够合理选择执行引擎,提高
程序的执行效率。
[0017]上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0018]附图仅用于示出实施方式,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0019]图1示出了本专利技术实施例提供的引擎选择方法的流程示意图;
[0020]图2示出了本专利技术实施例提供的SQL语句的语法树示意图;
[0021]图3示出了图1中的步骤160的流程示意图;
[0022]图4示本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种引擎选择方法,其特征在于,包括:获取若干SQL训练语句;获取所述SQL训练语句在Hive引擎上运行的第一运行时间,以及所述SQL训练语句在Spark引擎上运行的第二运行时间;根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息;根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值;根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模型,并将训练后的所述预设分类模型作为引擎推荐模型;根据所述引擎推荐模型,进行引擎选择。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息,具体包括:若所述第一运行时间小于所述第二运行时间,则确定所述推荐引擎信息为所述Hive引擎的标识信息;若所述第一运行时间大于所述第二运行时间,则确定所述推荐引擎信息为所述Spark引擎的标识信息。3.根据权利要求1所述的方法,其特征在于,所述预设特征变量包括关联变量、聚合变量、统计变量、求和变量、排序变量、合并变量、去重变量;所述根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值,具体包括:在所述SQL训练语句中获取与所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量相同的所述训练特征变量;将所述关联变量的个数、所述聚合变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数确定为所述训练特征变量对应的特征值。4.根据权利要求3所述的方法,其特征在于,所述预设特征变量还包括表大小;所述将所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量的个数确定为所述训练特征变量对应的特征值,具体包括:将所述关联变量的个数、所述聚合变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数、所述表大小的值确定为所述训练特征变量对应的特征值。5.根据权利要求1所述的方法,其特征在于,所述根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模...

【专利技术属性】
技术研发人员:钟全龙李志君赵奇勇杨冰孙铖然林星锦
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1