一种数据查询方法及装置制造方法及图纸

技术编号:22330112 阅读:38 留言:0更新日期:2019-10-19 12:16
本申请提供一种数据查询方法及装置,其中所述方法包括:确定目标事实表,从所述目标事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个超时查询语句;基于所述多个超时查询语句构建召回集,所述召回集包括覆盖所述多个超时查询语句的查询结果的待预测查询语句;获取所述待预测查询语句的特征数据,通过将预测模型应用于所生成的所述待预测查询语句的特征数据来预测所述待预测查询语句是否被命中;通过计算机集群对被命中的所述待预测查询语句进行预计算,并存储所述被命中的所述待预测查询语句的查询结果。

【技术实现步骤摘要】
一种数据查询方法及装置
本申请涉及计算机科学
,特别涉及一种数据查询方法。本申请同时涉及一种数据查询装置,一种计算设备,以及一种计算机可读存储介质。
技术介绍
数据分析平台通过大数据洞察为企业提供数据驱动业务发展能力的下一代商业智能工具,作为其底层计算引擎的指令高速缓冲器,其对下支持多数据源,对上支持不同类型的大数据洞察的复杂计算,指令高速缓冲器利用联机分析处理(OLAP)的数据库进行查询语句的查询和返回,然而,现有的联机分析处理(OLAP)的数据库对数据量有限制要求,不足以支撑现有的大数据的数量级,导致大量的查询语句的查询时间过长,同时,一些大数据的变化频率高,仅根据昨日查询结果进行缓存不足以满足用户的需求,导致查询的效率低下。
技术实现思路
有鉴于此,本申请实施例提供了一种数据查询方法。本申请同时涉及一种数据查询装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面,提供了一种数据查询方法,包括:确定目标事实表,从所述目标事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个超时查询语句;基于所述多个超时查询语句构建召回集,所述召回集包括覆盖所述多个超时查询语句的查询结果的待预测查询语句;获取所述待预测查询语句的特征数据,通过将预测模型应用于所生成的所述待预测查询语句的特征数据来预测所述待预测查询语句是否被命中;通过计算机集群对被命中的所述待预测查询语句进行预计算,并存储所述被命中的所述待预测查询语句的查询结果。根据本申请实施例的第二方面,提供了一种预测模型训练方法,包括:获取训练样本集合,其中,所述训练样本集合包括多组训练样本以及每组所述训练样本对应的训练标签,每组所述训练样本包括多个样本预测查询语句中每个所述样本预测查询语句对应的特征数据,所述训练标签包括多个样本预测查询语句中每个所述样本预测查询语句被命中或未被命中;通过所述训练样本集合对预测模型进行训练,得到所述预测模型,所述预测模型使得所述训练样本和所述训练标签相关联。根据本申请实施例的第三方面,提供了一种数据查询装置,包括:语句获取模块,被配置为确定目标事实表,从所述目标事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个超时查询语句;召回集构建模块,被配置为基于所述多个超时查询语句构建召回集,所述召回集包括覆盖所述多个超时查询语句的查询结果的待预测查询语句;预测模块,被配置为获取所述待预测查询语句的特征数据,通过将预测模型应用于所生成的所述待预测查询语句的特征数据来预测所述待预测查询语句是否被命中;预计算模块,被配置为通过计算机集群对被命中的所述待预测查询语句进行预计算,并存储所述被命中的所述待预测查询语句的查询结果。根据本申请实施例的第四方面,提供了一种预测模型训练装置,包括:样本获取模块,被配置为获取训练样本集合,其中,所述训练样本集合包括多组训练样本以及每组所述训练样本对应的训练标签,每组所述训练样本包括多个样本预测查询语句中每个所述样本预测查询语句对应的特征数据,所述训练标签包括多个样本预测查询语句中每个所述样本预测查询语句被命中或未被命中;模型训练模块,被配置为通过所述训练样本集合对预测模型进行训练,得到所述预测模型,所述预测模型使得所述训练样本和所述训练标签相关联。根据本申请实施例的第五方面,提供了一种计算设备,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:确定目标事实表,从所述目标事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个超时查询语句;基于所述多个超时查询语句构建召回集,所述召回集包括覆盖所述多个超时查询语句的查询结果的待预测查询语句;获取所述待预测查询语句的特征数据,通过将预测模型应用于所生成的所述待预测查询语句的特征数据来预测所述待预测查询语句是否被命中;通过计算机集群对被命中的所述待预测查询语句进行预计算,并存储所述被命中的所述待预测查询语句的查询结果。根据本申请实施例的第六方面,提供了一种计算设备,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:获取训练样本集合,其中,所述训练样本集合包括多组训练样本以及每组所述训练样本对应的训练标签,每组所述训练样本包括多个样本预测查询语句中每个所述样本预测查询语句对应的特征数据,所述训练标签包括多个样本预测查询语句中每个所述样本预测查询语句被命中或未被命中;通过所述训练样本集合对预测模型进行训练,得到所述预测模型,所述预测模型使得所述训练样本和所述训练标签相关联。根据本申请实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述数据查询方法或预测模型训练方法的步骤。与现有技术相比,本申请具有如下优点:本申请提供一种数据查询方法,包括:确定目标事实表,从所述目标事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个超时查询语句;基于所述多个超时查询语句构建召回集,所述召回集包括覆盖所述多个超时查询语句的查询结果的待预测查询语句;获取所述待预测查询语句的特征数据,通过将预测模型应用于所生成的所述待预测查询语句的特征数据来预测所述待预测查询语句是否被命中;通过计算机集群对被命中的所述待预测查询语句进行预计算,并存储所述被命中的所述待预测查询语句的查询结果。本申请提供的数据查询方法,通过以事实表为单位通过查询日志收集多个超时查询语句,对所述多个查询语句进行合并和筛选,构建包含覆盖所述多个超时查询语句的查询结果的待预测查询语句的召回集,根据预测模型预测最有可能被查询的待预测查询语句,并对待预测查询语句提前进行查询结果的预计算,从而在用户进行查询时就可以直接返回查询结果,减少了查询所需要的时间,提高了数据查询的速度,同时,系统根据预设的观察周期为基准构建召回集,并从所述召回集中确定进行预计算的待预测查询语句,从而不必对全部的超时查询语句进行预计算,从而减少了预计算结果的存储空间并保证了预测结果的可靠性,提高了查询的效率。附图说明图1是本申请实施例提供的数据查询方法的流程图;图2是本申请实施例提供的数据查询方的法另一流程图;图3是本申请实施例提供的召回集构建方法的流程图;图4是本申请实施例提供的获取预测查询语句的特征数据方法的流程图;图5是本申请实施例提供的数据立方体的结构示意图;图6是本申请实施例提供的预测模型训练方法的流程图;图7是本申请实施例提供的获取训练样本集合方法的流程图;图8是本申请实施例提供的获取样本预测查询语句的特征数据的流程图;图9是本申请实施例提供的数据查询装置的结构示意图;图10是本申请实施例提供的预测模型训练装置的结构示意图;图11是本申请实施例提供的计算设备的结构框图;图12是本申请实施例提供的另一计算设备的结构框图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个本文档来自技高网...

【技术保护点】
1.一种数据查询方法,其特征在于,包括:确定目标事实表,从所述目标事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个超时查询语句;基于所述多个超时查询语句构建召回集,所述召回集包括覆盖所述多个超时查询语句的查询结果的待预测查询语句;获取所述待预测查询语句的特征数据,通过将预测模型应用于所生成的所述待预测查询语句的特征数据来预测所述待预测查询语句是否被命中;通过计算机集群对被命中的所述待预测查询语句进行预计算,并存储所述被命中的所述待预测查询语句的查询结果。

【技术特征摘要】
1.一种数据查询方法,其特征在于,包括:确定目标事实表,从所述目标事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个超时查询语句;基于所述多个超时查询语句构建召回集,所述召回集包括覆盖所述多个超时查询语句的查询结果的待预测查询语句;获取所述待预测查询语句的特征数据,通过将预测模型应用于所生成的所述待预测查询语句的特征数据来预测所述待预测查询语句是否被命中;通过计算机集群对被命中的所述待预测查询语句进行预计算,并存储所述被命中的所述待预测查询语句的查询结果。2.根据权利要求1所述的方法,其特征在于,在确定目标事实表之后,还包括:从第一数据仓库获取所述目标事实表和所述目标事实表对应的目标维度表;基于所述目标事实表和所述目标事实表对应的目标维度表构建多维数据模型。3.根据权利要求2所述的方法,其特征在于,在构建召回集之前,还包括:基于所述目标事实表对应的至少一个数据请求,对所述多个超时查询语句进行归一化处理。4.根据权利要求3所述的方法,其特征在于,对所述多个超时查询语句进行归一化处理包括:获取所述多个超时查询语句中每个所述超时查询语句的查询结果在所述多维数据模型中对应的维度和/或度量;根据所述维度和/或度量的属性特征,将同一所述维度和/或度量对应的不同所述超时查询语句进行重构。5.根据权利要求2所述的方法,其特征在于,所述超时查询语句为n个,基于所述多个超时查询语句构建召回集包括:S11、获取所述n个超时查询语句中每个所述超时查询语句在所述多维数据模型中对应的维度;S12、创建召回集,将覆盖了最多维度的超时查询语句存储在所述召回集内;S13、创建语句集,将除所述召回集内的超时查询语句之外的n-1个超时查询语句存储在所述语句集内;S14、根据所述召回集内的所述超时查询语句确定所述召回集覆盖的维度;S15、计算所述语句集内的第i个超时查询语句的维度与所述召回集覆盖的维度的并集,得到并集覆盖维度,其中,1≤i≤n-1;S16、判断所述并集覆盖维度是否大于所述召回集覆盖的维度;S17、若否,则将i自增1并继续执行步骤S15;S18、若是,则将所述第i个超时查询语句添加到所述召回集内;S19、根据所述召回集内的所述超时查询语句重新确定所述召回集覆盖的维度;S20、判断所述召回集覆盖的维度是否覆盖所述多维数据模型;S21、若是,则确定所述召回集内的所述超时查询语句为待预测查询语句;S22、若否,则将i自增1并继续执行步骤S15。6.根据权利要求2所述的方法,其特征在于,获取所述待预测查询语句的特征数据包括:获取所述待预测查询语句在所述预设观察周期内的被命中数量;获取所述目标事实表在所述预设观察周期内的查询数量、所述查询数量的统计特征、属性信息和时间特征信息;获取所述待预测查询语句的查询结果在所述多维数据模型中对应的维度的统计特征和维度覆盖量;获取所述待预测查询语句的查询结果在所述多维数据模型中对应的度量的统计特征和度量覆盖量;根据所述待预测查询语句的查询结果在所述多维数据模型中对应的维度的查询频次,确定所述待预测查询语句的特征数据。7.根据权利要求2所述的方法,其特征在于,通过计算机集群对被命中的所述待预测查询语句进行预计算包括:从所述多维数据模型中获取被命中的所述待预测查询语句的查询结果;存储所述被命中的所述待预测查询语句的计算结果包括:将所述被命中的所述待预测查询语句的查询结果存储至第二数据仓库。8.根据权利要求7所述的方法,其特征在于,在将所述被命中的所述待预测查询语句的查询结果存储至第二数据仓库之后,还包括:生成所述待预测查询语句的查询结果对应的数据立方体。9.一种预测模型训练方法,其特征在于,包括:获取训练样本集合,其中,所述训练样本集合包括多组训练样本以及每组所述训练样本对应的训练标签,每组所述训练样本包括多个样本预测查询语句中每个所述样本预测查询语句对应的特征数据,所述训练标签包括多个样本预测查询语句中每个所述样本预测查询语句被命中或未被命中;通过所述训练样本集合对预测模型进行训练,得到所述预测模型,所述预测模型使得所述训练样本和所述训练标签相关联。10.根据权利要求9所述的方法,其特征在于,获取训练样本集合包括:确定样本事实表,从所述样本事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个样本超时查询语句;基于所述多个样本超时查询语句构建...

【专利技术属性】
技术研发人员:夏元昉赵亚辉刘晓辉王奇曾宪玺张荣华
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1