HiveSQL脚本参数优化方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:35413400 阅读:14 留言:0更新日期:2022-11-03 11:10
本申请公开了一种HiveSQL脚本参数优化方法。本申请提供的方法包括:获取目标系统的HiveSQL脚本,以及所述HiveSQL脚本的执行计划和执行时间;获取目标编码参数,所述目标编码参数是对所述HiveSQL脚本中的目标参数进行编码得到的;获取目标训练样本数据,所述目标训练样本数据是对所述目标编码参数、所述执行计划和所述执行时间进行编码得到的;获取目标适应度计算模型,所述目标适应度计算模型是训练预设适应度计算模型得到;将优化后的目标HiveSQL脚本输入至所述目标适应度计算模型,获取目标HiveSQL脚本的优化适应度数据;获取所述目标HiveSQL脚本的参数优化结果,所述参数优化结果是在第一预设演化代数内且变化在预设适应度变化范围内的所述优化适应度数据对应的所述第二目标参数。对应的所述第二目标参数。对应的所述第二目标参数。

【技术实现步骤摘要】
HiveSQL脚本参数优化方法、装置、计算机设备及存储介质


[0001]本申请涉及大数据
,尤其涉及HiveSQL脚本参数优化方法、装置、计算机设备及存储介质。

技术介绍

[0002]在大数据
中,Hive是一种底层封装了Hadoop的数据仓库处理工具,使用类SQL脚本语言的HiveSQL脚本语言实现数据查询。
[0003]Hive自带了大量的优化参数,通过调整该优化参数可以对HiveSQL的执行结果产生影响,而大数据开发人员需要凭借经验设置合理的优化参数才能达到优化效果,导致现有HiveSQL脚本参数优化和验证方式效率低且不稳定。

技术实现思路

[0004]本申请实施例提供一种HiveSQL脚本参数优化方法、装置、计算机设备及存储介质,以解决现有HiveSQL脚本参数优化和验证方式效率低且不稳定问题。
[0005]本申请的第一方面,提供一种HiveSQL脚本参数优化方法,包括:
[0006]获取目标系统的HiveSQL脚本,以及所述HiveSQL脚本对应的执行计划和执行时间;
[0007]获取目标编码参数,其中,所述目标编码参数是使用预设第一编码方法对第一目标参数进行编码得到的,所述第一目标参数是从所述HiveSQL脚本中获得的;
[0008]获取目标训练样本数据,其中,所述目标训练样本数据是使用预设第二编码方法对所述HiveSQL脚本的所述第一目标参数、所述执行计划和所述执行时间进行编码得到的;
[0009]获取目标适应度计算模型,其中,所述目标适应度计算模型是使用所述目标训练样本数据训练预设适应度计算模型得到的,所述预设适应度计算模型使用随机森林算法构建,所述预设适应度计算模型接收所述目标训练样本数据,以及输出所述目标训练样本数据对应的适应度数据;
[0010]将优化后的目标HiveSQL脚本输入至所述目标适应度计算模型,获取所述目标适应度计算模型输出的目标HiveSQL脚本的优化适应度数据,其中,所述优化后的目标HiveSQL脚本是使用预设演化算法优化目标HiveSQL脚本的第二目标参数得到的;
[0011]获取所述目标HiveSQL脚本的参数优化结果,其中,所述参数优化结果是在第一预设演化代数内且变化在预设适应度变化范围内的所述优化适应度数据对应的所述第二目标参数。
[0012]本申请的第二方面,提供一种HiveSQL脚本参数优化装置,包括:
[0013]第一数据获取模块,用于获取目标系统的HiveSQL脚本,以及所述HiveSQL脚本对应的执行计划和执行时间;
[0014]目标编码参数模块,用于获取目标编码参数,其中,所述目标编码参数是使用预设第一编码方法对第一目标参数进行编码得到的,所述第一目标参数是从所述HiveSQL脚本
中获得的;
[0015]目标训练样本数据模块,用于获取目标训练样本数据,其中,所述目标训练样本数据是使用预设第二编码方法对所述HiveSQL脚本的所述第一目标参数、所述执行计划和所述执行时间进行编码得到的;
[0016]目标适应度计算模型模块,用于获取目标适应度计算模型,其中,所述目标适应度计算模型是使用所述目标训练样本数据训练预设适应度计算模型得到的,所述预设适应度计算模型使用随机森林算法构建,所述预设适应度计算模型接收所述目标训练样本数据,以及输出所述目标训练样本数据对应的适应度数据;
[0017]优化适应度数据模块,用于将优化后的目标HiveSQL脚本输入至所述目标适应度计算模型,获取所述目标适应度计算模型输出的目标HiveSQL脚本的优化适应度数据,其中,所述优化后的目标HiveSQL脚本是使用预设演化算法优化目标HiveSQL脚本的第二目标参数得到的;
[0018]参数优化结果模块,用于获取所述目标HiveSQL脚本的参数优化结果,其中,所述参数优化结果是在第一预设演化代数内且变化在预设适应度变化范围内的所述优化适应度数据对应的所述第二目标参数。
[0019]本申请的第三方面,提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述HiveSQL脚本参数优化方法的步骤。
[0020]本申请的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述HiveSQL脚本参数优化方法的步骤。
[0021]上述HiveSQL脚本参数优化方法、装置、计算机设备及存储介质,通过获取目标系统的HiveSQL脚本,以及所述HiveSQL脚本的执行计划和执行时间,并将所述HiveSQL脚本中用于优化的参数进行编码得到目标编码参数,然后使用所述目标编码参数、所述执行计划和所述执行时间再编码为目标训练样本数据,并使用所述目标训练样本数据训练预设的适应度计算模型,得到目标适应度计算模型。在对目标HiveSQL脚本的待优化参数使用演化算法进行优化的过程中,使用所述目标适应度计算模型计算所述适应度,并根据预设的适应度变化规则得到最终的目标HiveSQL脚本的优化参数。使用所述目标适应度计算模型计算适应度,不仅显著降低了系统CPU资源的消耗,也避免了HiveSQL脚本的执行耗时,提高了HiveSQL脚本的参数优化效率。同时,使用演化算法对HiveSQL脚本的参数进行优化,也避免了凭借人工经验优化的不稳定性。
附图说明
[0022]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本申请一实施例中HiveSQL脚本参数优化方法的一应用环境示意图;
[0024]图2是本申请一实施例中HiveSQL脚本参数优化方法的一流程图;
[0025]图3是本申请一实施例中HiveSQL脚本参数优化装置的结构示意图;
[0026]图4是本申请一实施例中计算机设备的一示意图。
具体实施方式
[0027]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0028]本申请提供的HiveSQL脚本参数优化方法,可应用在如图1的应用环境中,其中,计算机设备可以但不限于各种个人计算机、笔记本电脑,计算机设备还可以是服务器,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种HiveSQL脚本参数优化方法,其特征在于,包括:获取目标系统的HiveSQL脚本,以及所述HiveSQL脚本对应的执行计划和执行时间;获取目标编码参数,其中,所述目标编码参数是使用预设第一编码方法对第一目标参数进行编码得到的,所述第一目标参数是从所述HiveSQL脚本中获得的;获取目标训练样本数据,其中,所述目标训练样本数据是使用预设第二编码方法对所述HiveSQL脚本的所述第一目标参数、所述执行计划和所述执行时间进行编码得到的;获取目标适应度计算模型,其中,所述目标适应度计算模型是使用所述目标训练样本数据训练预设适应度计算模型得到的,所述预设适应度计算模型使用随机森林算法构建,所述预设适应度计算模型接收所述目标训练样本数据,以及输出所述目标训练样本数据对应的适应度数据;将优化后的目标HiveSQL脚本输入至所述目标适应度计算模型,获取所述目标适应度计算模型输出的目标HiveSQL脚本的优化适应度数据,其中,所述优化后的目标HiveSQL脚本是使用预设演化算法优化目标HiveSQL脚本的第二目标参数得到的;获取所述目标HiveSQL脚本的参数优化结果,其中,所述参数优化结果是在第一预设演化代数内且变化在预设适应度变化范围内的所述优化适应度数据对应的所述第二目标参数。2.根据权利要求1所述的HiveSQL脚本参数优化方法,其特征在于,所述预设适应度计算模型包含适应度计算公式,所述适应度计算公式如下:f
n
=1

(T
n
/T0)其中,f
n
为所述适应度,T0表示被计算的所述HiveSQL脚本不使用Hive数据仓库工具提供的优化参数的执行耗时,T
n
表示被计算的所述HiveSQL脚本经过参数优化后的执行耗时。3.根据权利要求1所述的HiveSQL脚本参数优化方法,其特征在于,所述使用预设第一编码方法对第一目标参数进行编码包括:获取所述HiveSQL脚本中的所述第一目标参数,所述第一目标参数的类型包括布尔类型和非布尔类型;将布尔类型的所述第一目标参数转换为0或1,其中true对应1,false对应0;将非布尔类型的所述第一目标参数转换成预设参数数量的参数值,其中,所述参数值位于预设目标参数区间内。4.根据权利要求1所述的HiveSQL脚本参数优化方法,其特征在于,所述使用预设第二编码方法对所述HiveSQL脚本的所述第一目标参数、所述执行计划和所述执行时间进行编码包括:将所述HiveSQL脚本对应的所述执行计划转换为对应的样本执行向量;将所述HiveSQL脚本中的所述第一目标参数转换为样本编码参数;获取所述HiveSQL脚本的执行时间降低率,其中,所述执行时间降低率是所述HiveSQL脚本的所述执行时间相对于所述HiveSQL脚本不使用Hive数据仓库工具提供的优化参数执行的耗时的降低率;将所述样本执行向量和所述样本编码参数作为所述目标训练样本数据中的维度数据,将所述执行时间降低率作为所述目标训练样本数据中的标签数据。5.根据权利要求1所述的HiveSQL脚本参数优化方法,其特征在于,所述获取所述目标
HiveSQL脚本的...

【专利技术属性】
技术研发人员:吴瑞
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1