【技术实现步骤摘要】
一种内存大小预测方法及装置
[0001]本专利技术涉及数据处理领域,更具体的说,涉及一种内存大小预测方法及装置。
技术介绍
[0002]Impala是一种实时交互的sql(Structured Query Language,结构化查询语言)大数据查询工具,通过分布式查询引擎,可以直接从HDFS(Hadoop Distributed File System)或HBase中查询数据,大大降低延迟。Impala查询过程的中间结果不写入磁盘,而是缓存于内存中,使得impala对内存有较大的依赖,则impala查询过程需要提前预置查询内存大小,若预置内存过大,会降低查询的并发度。若预置内存偏小,会降低查询的成功率,因此,如何预置准确的内存大小,是本领域技术人员亟需解决的技术问题。
技术实现思路
[0003]鉴于上述问题,本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种内存大小预测方法及装置。
[0004]一种内存大小预测方法,包括:
[0005]获取待进行内存预测操作的查询语句的执行计划数 ...
【技术保护点】
【技术特征摘要】
1.一种内存大小预测方法,其特征在于,包括:获取待进行内存预测操作的查询语句的执行计划数据;对所述执行计划数据进行特征提取,得到内存预测特征;调用预设内存预测模型对所述内存预测特征进行处理,得到所述查询语句的预测内存大小;所述预设内存预测模型基于训练样本训练得到;所述训练样本包括查询语句样本对应的内存预测特征样本以及内存大小样本;所述预设内存预测模型中,不同内存大小样本对应的类别权重不同;所述预设内存预测模型训练过程中,使用所述训练样本对应的混淆矩阵和所述混淆矩阵对应的奖惩矩阵,从预先设置的至少一个概率阈值中筛选出满足类别概率规则的概率阈值,并作为目标概率阈值;所述目标概率阈值作为所述预设内存预测模型确定预测内存大小的参考数据。2.根据权利要求1所述的内存大小预测方法,其特征在于,所述预设内存预测模型的生成过程包括:获取查询语句样本的执行计划数据样本,并对所述执行计划数据样本进行特征提取,得到所述查询语句样本对应的内存预测特征样本;确定所述查询语句样本对应的内存大小样本;使用所述查询语句样本对应的内存预测特征样本以及内存大小样本对预设内存预测模型进行训练,直至满足预设停止训练条件时停止。3.根据权利要求2所述的内存大小预测方法,其特征在于,确定所述查询语句样本对应的内存大小样本,包括:获取所述查询语句样本对应的实际内存使用大小以及内存限制大小;调整所述查询语句样本对应的内存大小为小于所述实际内存使用大小以及所述内存限制大小的中间值,并使用所述中间值验证所述查询语句样本是否能够成功执行,得到验证结果;将验证结果为成功执行的最小中间值作为所述查询语句样本对应的内存大小样本。4.根据权利要求2所述的内存大小预测方法,其特征在于,使用所述查询语句样本对应的内存预测特征样本以及内存大小样本对预设内存预测模型进行训练,包括:基于所述内存大小样本确定内存大小类别;获取预先设置的预设内存预测模型的至少一个概率阈值;基于预设内存预测模型,得到所述内存预测特征样本对应的内存概率预测值,以及所述概率阈值对应的内存大小预测类别;根据所述概率阈值以及所述内存大小预测类别,确定所述内存预测特征样本的混淆矩阵;所述混淆矩阵包括所述内存预测特征样本被识别为每一内存大小类别的个数;按照预设奖惩矩阵设置规则,设置所述混淆矩阵对应的奖惩矩阵;基于所述混淆矩阵和所述奖惩矩阵,从所述至少一个概率阈值中筛选出满足类别概率规则的概率阈值,并作为目标概率阈值。5.根据权利要求4所述的内存大小预测方法,其特征在于,按照预设奖惩矩...
【专利技术属性】
技术研发人员:赵薇,汤潮,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。