计算引擎选择模型的训练方法、计算引擎选择方法及装置制造方法及图纸

技术编号:38007860 阅读:25 留言:0更新日期:2023-06-30 10:25
本申请公开了一种计算引擎选择模型的训练方法、计算引擎选择方法及装置,属于大数据技术领域。所述方法包括:获取结构化查询语言SQL训练集,以及所述SQL训练集中每条SQL语句的文本特征、向量化数据和每条所述SQL语句中数据表的数据特征;生成每条所述SQL语句的引擎标签,所述引擎标签用于指示每条所述SQL语句各自对应的执行时间最短的计算引擎;将每条所述SQL语句的文本特征、向量化数据和每条所述SQL语句中数据表的数据特征作为计算引擎选择模型的训练数据,每条所述SQL语句对应的引擎标签作为标签值,对所述计算引擎选择模型进行训练;其中,训练后的所述计算引擎选择模型用于根据输入的目标SQL语句,输出所述目标SQL语句的执行时间最短的计算引擎。语句的执行时间最短的计算引擎。语句的执行时间最短的计算引擎。

【技术实现步骤摘要】
计算引擎选择模型的训练方法、计算引擎选择方法及装置


[0001]本申请属于大数据
,具体涉及一种计算引擎选择模型的训练方法、计算引擎选择方法及装置。

技术介绍

[0002]结构化查询语言(Structured Query Language,SQL)是一种数据库的查询和程序设计语言,便于存取数据以及查询、更新和管理关系数据库系统。
[0003]技术人员在使用大数据平台进行SQL交互查询时,选择不同的计算引擎,其执行效率也不一样,具体是选择哪种计算引擎,往往需要有经验的工程师来决定或进行人工尝试,无自动化的方法,大大增加了时间成本和资源成本。

技术实现思路

[0004]本申请实施例的目的是提供一种计算引擎选择模型的训练方法、计算引擎选择方法及装置,能够解决现有计算引擎选择方式的时间成本和资源成本过高的问题。
[0005]第一方面,本申请实施例提供了一种计算引擎选择模型的训练方法,所述方法包括:
[0006]获取结构化查询语言SQL训练集,以及所述SQL训练集中每条SQL语句的文本特征、向量化数据和每条所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种计算引擎选择模型的训练方法,其特征在于,所述方法包括:获取结构化查询语言SQL训练集,以及所述SQL训练集中每条SQL语句的文本特征、向量化数据和每条所述SQL语句中数据表的数据特征;生成每条所述SQL语句的引擎标签,所述引擎标签用于指示每条所述SQL语句各自对应的执行时间最短的计算引擎;将每条所述SQL语句的文本特征、向量化数据和每条所述SQL语句中数据表的数据特征作为计算引擎选择模型的训练数据,每条所述SQL语句对应的引擎标签作为标签值,对所述计算引擎选择模型进行训练;其中,训练后的所述计算引擎选择模型用于根据输入的目标SQL语句,输出所述目标SQL语句的执行时间最短的计算引擎。2.如权利要求1所述的计算引擎选择模型的训练方法,其特征在于,所述将每条所述SQL语句的文本特征、向量化数据和每条所述SQL语句中数据表的数据特征作为计算引擎选择模型的训练数据,每条所述SQL语句对应的引擎标签作为标签值,对所述计算引擎选择模型进行训练,包括:将每条所述SQL语句的向量化数据,每条所述SQL语句对应的引擎标签作为标签值输入所述计算引擎选择模型,获取一维隐层向量表示;基于所述一维隐层向量表示、每条所述SQL语句的文本特征以及每条所述SQL语句中数据表的数据特征,将每条所述SQL语句对应的引擎标签作为标签值对所述计算引擎选择模型进行训练。3.如权利要求1所述的计算引擎选择模型的训练方法,其特征在于,所述获取SQL训练集,以及所述SQL训练集中每条SQL语句的文本特征、向量化数据和每条所述SQL语句中数据表的数据特征,包括:对所述SQL训练集中每条所述SQL语句进行文本分析,确定每条所述SQL语句的文本特征,所述文本特征包括SQL语句中数据表的数量、以及用于表征SQL语句中是否存在聚合函数的信息;基于自然语言处理NLP技术,对所述SQL训练集中每条所述SQL语句进行文本向量化,以得到每条所述SQL语句的向量化数据;基于所述SQL语句的文本特征,确定所述SQL语句中涉及的数据表的表名称;基于所述数据表的表名称,从统计表中获取所述数据表的历史数据,将所述历史数据的最大值作为所述SQL语句中数据表的数据特征。4.如权利要求1至3中任一项所述的计算引擎选择模型的训练方法,其特征在于,所述基于所述一维隐层向量表示、每条所述SQL语句的文本特征、每条所述SQL语句中数据表的数据特征、每条所述SQL语句对应的引擎标签对所述计算引擎选择模型进行训练,包括:将所述一维隐层向量表示、每条所述SQL语句的文本特征以及每条所述SQL语句中数据表的数据特征作为训练数据,每条所述SQL语句对应的引擎标签作为标签值,采用分布式梯度增强库XGBoost或梯度提升决策树GBDT或轻量的梯度提升机LightGBM进行训练。5.一种计算引擎选择方法,其特征在于,所述...

【专利技术属性】
技术研发人员:张子浪刘海滨李小言郝慧俊程玉藏郑青如刘航
申请(专利权)人:中国铁塔股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1