引擎选择方法、装置及计算设备制造方法及图纸

技术编号:31009640 阅读:24 留言:0更新日期:2021-11-30 00:05
本发明专利技术实施例涉及大数据技术领域,公开了一种引擎选择方法、装置及计算设备。该方法包括:获取若干SQL训练语句;获取所述SQL训练语句在Hive引擎上运行的第一运行时间,以及所述SQL训练语句在Spark引擎上运行的第二运行时间;根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息;根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值;根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模型,并将训练后的所述预设分类模型作为引擎推荐模型;根据所述引擎推荐模型,进行引擎选择。通过上述方式,本发明专利技术实施例能够合理选择执行引擎,从而提高程序的执行效率。提高程序的执行效率。提高程序的执行效率。

【技术实现步骤摘要】
引擎选择方法、装置及计算设备


[0001]本专利技术实施例涉及大数据
,具体涉及一种引擎选择方法、装置及计算设备。

技术介绍

[0002]Hadoop是一个用于对大量数据进行分布式处理的软件框架,其能够以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop一般包含HDFS、Zookeeper、YARN、Mapreduct(简称MR)、Hive和Spark等组件,常用的Hive和Spark都部署在YARN上,对前端开发人员是无感知的,开发人员可以自主选择运行的方式。
[0003]目前,开发人员一般根据自己的经验选择Hive或Spark作为Hadoop的执行引擎,若选择不当,则容易导致开发的程序效率较低。

技术实现思路

[0004]鉴于上述问题,本专利技术实施例提供了一种引擎选择方法、装置及计算设备,能够合理选择执行引擎,从而提高程序的执行效率。
[0005]根据本专利技术实施例的第一方面,提供了一种引擎选择方法,包括:获取若干SQL训练语句;获取所述SQL训练语句在Hive引擎上运行的第一运行时间,以及所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种引擎选择方法,其特征在于,包括:获取若干SQL训练语句;获取所述SQL训练语句在Hive引擎上运行的第一运行时间,以及所述SQL训练语句在Spark引擎上运行的第二运行时间;根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息;根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值;根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模型,并将训练后的所述预设分类模型作为引擎推荐模型;根据所述引擎推荐模型,进行引擎选择。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息,具体包括:若所述第一运行时间小于所述第二运行时间,则确定所述推荐引擎信息为所述Hive引擎的标识信息;若所述第一运行时间大于所述第二运行时间,则确定所述推荐引擎信息为所述Spark引擎的标识信息。3.根据权利要求1所述的方法,其特征在于,所述预设特征变量包括关联变量、聚合变量、统计变量、求和变量、排序变量、合并变量、去重变量;所述根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值,具体包括:在所述SQL训练语句中获取与所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量相同的所述训练特征变量;将所述关联变量的个数、所述聚合变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数确定为所述训练特征变量对应的特征值。4.根据权利要求3所述的方法,其特征在于,所述预设特征变量还包括表大小;所述将所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量的个数确定为所述训练特征变量对应的特征值,具体包括:将所述关联变量的个数、所述聚合变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数、所述表大小的值确定为所述训练特征变量对应的特征值。5.根据权利要求1所述的方法,其特征在于,所述根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模...

【专利技术属性】
技术研发人员:钟全龙李志君赵奇勇杨冰孙铖然林星锦
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1