【技术实现步骤摘要】
引擎选择方法、装置及计算设备
[0001]本专利技术实施例涉及大数据
,具体涉及一种引擎选择方法、装置及计算设备。
技术介绍
[0002]Hadoop是一个用于对大量数据进行分布式处理的软件框架,其能够以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop一般包含HDFS、Zookeeper、YARN、Mapreduct(简称MR)、Hive和Spark等组件,常用的Hive和Spark都部署在YARN上,对前端开发人员是无感知的,开发人员可以自主选择运行的方式。
[0003]目前,开发人员一般根据自己的经验选择Hive或Spark作为Hadoop的执行引擎,若选择不当,则容易导致开发的程序效率较低。
技术实现思路
[0004]鉴于上述问题,本专利技术实施例提供了一种引擎选择方法、装置及计算设备,能够合理选择执行引擎,从而提高程序的执行效率。
[0005]根据本专利技术实施例的第一方面,提供了一种引擎选择方法,包括:获取若干SQL训练语句;获取所述SQL训练语句在Hive引擎上运行的第 ...
【技术保护点】
【技术特征摘要】
1.一种引擎选择方法,其特征在于,包括:获取若干SQL训练语句;获取所述SQL训练语句在Hive引擎上运行的第一运行时间,以及所述SQL训练语句在Spark引擎上运行的第二运行时间;根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息;根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值;根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模型,并将训练后的所述预设分类模型作为引擎推荐模型;根据所述引擎推荐模型,进行引擎选择。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息,具体包括:若所述第一运行时间小于所述第二运行时间,则确定所述推荐引擎信息为所述Hive引擎的标识信息;若所述第一运行时间大于所述第二运行时间,则确定所述推荐引擎信息为所述Spark引擎的标识信息。3.根据权利要求1所述的方法,其特征在于,所述预设特征变量包括关联变量、聚合变量、统计变量、求和变量、排序变量、合并变量、去重变量;所述根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值,具体包括:在所述SQL训练语句中获取与所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量相同的所述训练特征变量;将所述关联变量的个数、所述聚合变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数确定为所述训练特征变量对应的特征值。4.根据权利要求3所述的方法,其特征在于,所述预设特征变量还包括表大小;所述将所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量的个数确定为所述训练特征变量对应的特征值,具体包括:将所述关联变量的个数、所述聚合变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数、所述表大小的值确定为所述训练特征变量对应的特征值。5.根据权利要求1所述的方法,其特征在于,所述根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模...
【专利技术属性】
技术研发人员:钟全龙,李志君,赵奇勇,杨冰,孙铖然,林星锦,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。