引擎选择方法、装置及计算设备制造方法及图纸

技术编号：31009640 阅读：24 留言：0更新日期：2021-11-30 00:05

本发明专利技术实施例涉及大数据技术领域，公开了一种引擎选择方法、装置及计算设备。该方法包括：获取若干SQL训练语句；获取所述SQL训练语句在Hive引擎上运行的第一运行时间，以及所述SQL训练语句在Spark引擎上运行的第二运行时间；根据所述第一运行时间和所述第二运行时间，确定推荐引擎信息；根据预设特征变量，在所述SQL训练语句中获取训练特征变量，并确定所述训练特征变量对应的特征值；根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息，训练预设分类模型，并将训练后的所述预设分类模型作为引擎推荐模型；根据所述引擎推荐模型，进行引擎选择。通过上述方式，本发明专利技术实施例能够合理选择执行引擎，从而提高程序的执行效率。提高程序的执行效率。提高程序的执行效率。

全部详细技术资料下载

【技术实现步骤摘要】
引擎选择方法、装置及计算设备

[0001]本专利技术实施例涉及大数据
，具体涉及一种引擎选择方法、装置及计算设备。

技术介绍

[0002]Hadoop是一个用于对大量数据进行分布式处理的软件框架，其能够以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop一般包含HDFS、Zookeeper、YARN、Mapreduct(简称MR)、Hive和Spark等组件，常用的Hive和Spark都部署在YARN上，对前端开发人员是无感知的，开发人员可以自主选择运行的方式。
[0003]目前，开发人员一般根据自己的经验选择Hive或Spark作为Hadoop的执行引擎，若选择不当，则容易导致开发的程序效率较低。

技术实现思路

[0004]鉴于上述问题，本专利技术实施例提供了一种引擎选择方法、装置及计算设备，能够合理选择执行引擎，从而提高程序的执行效率。
[0005]根据本专利技术实施例的第一方面，提供了一种引擎选择方法，包括：获取若干SQL训练语句；获取所述SQL训练语句在Hive引擎上运行的第...

【技术保护点】

【技术特征摘要】
1.一种引擎选择方法，其特征在于，包括：获取若干SQL训练语句；获取所述SQL训练语句在Hive引擎上运行的第一运行时间，以及所述SQL训练语句在Spark引擎上运行的第二运行时间；根据所述第一运行时间和所述第二运行时间，确定推荐引擎信息；根据预设特征变量，在所述SQL训练语句中获取训练特征变量，并确定所述训练特征变量对应的特征值；根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息，训练预设分类模型，并将训练后的所述预设分类模型作为引擎推荐模型；根据所述引擎推荐模型，进行引擎选择。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一运行时间和所述第二运行时间，确定推荐引擎信息，具体包括：若所述第一运行时间小于所述第二运行时间，则确定所述推荐引擎信息为所述Hive引擎的标识信息；若所述第一运行时间大于所述第二运行时间，则确定所述推荐引擎信息为所述Spark引擎的标识信息。3.根据权利要求1所述的方法，其特征在于，所述预设特征变量包括关联变量、聚合变量、统计变量、求和变量、排序变量、合并变量、去重变量；所述根据预设特征变量，在所述SQL训练语句中获取训练特征变量，并确定所述训练特征变量对应的特征值，具体包括：在所述SQL训练语句中获取与所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量相同的所述训练特征变量；将所述关联变量的个数、所述聚合变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数确定为所述训练特征变量对应的特征值。4.根据权利要求3所述的方法，其特征在于，所述预设特征变量还包括表大小；所述将所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量的个数确定为所述训练特征变量对应的特征值，具体包括：将所述关联变量的个数、所述聚合变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数、所述表大小的值确定为所述训练特征变量对应的特征值。5.根据权利要求1所述的方法，其特征在于，所述根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息，训练预设分类模...

【专利技术属性】
技术研发人员：钟全龙，李志君，赵奇勇，杨冰，孙铖然，林星锦，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人