一种数据查询方法及装置制造方法及图纸

技术编号：22330112 阅读：38 留言：0更新日期：2019-10-19 12:16

本申请提供一种数据查询方法及装置，其中所述方法包括：确定目标事实表，从所述目标事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个超时查询语句；基于所述多个超时查询语句构建召回集，所述召回集包括覆盖所述多个超时查询语句的查询结果的待预测查询语句；获取所述待预测查询语句的特征数据，通过将预测模型应用于所生成的所述待预测查询语句的特征数据来预测所述待预测查询语句是否被命中；通过计算机集群对被命中的所述待预测查询语句进行预计算，并存储所述被命中的所述待预测查询语句的查询结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据查询方法及装置
本申请涉及计算机科学
，特别涉及一种数据查询方法。本申请同时涉及一种数据查询装置，一种计算设备，以及一种计算机可读存储介质。
技术介绍
数据分析平台通过大数据洞察为企业提供数据驱动业务发展能力的下一代商业智能工具，作为其底层计算引擎的指令高速缓冲器，其对下支持多数据源，对上支持不同类型的大数据洞察的复杂计算，指令高速缓冲器利用联机分析处理(OLAP)的数据库进行查询语句的查询和返回，然而，现有的联机分析处理(OLAP)的数据库对数据量有限制要求，不足以支撑现有的大数据的数量级，导致大量的查询语句的查询时间过长，同时，一些大数据的变化频率高，仅根据昨日查询结果进行缓存不足以满足用户的需求，导致查询的效率低下。
技术实现思路
有鉴于此，本申请实施例提供了一种数据查询方法。本申请同时涉及一种数据查询装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面，提供了一种数据查询方法，包括：确定目标事实表，从所述目标事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个超时查询语句；基于所述多个超时查询语句构建召回集，所述召回集包括覆盖所述多个超时查询语句的查询结果的待预测查询语句；获取所述待预测查询语句的特征数据，通过将预测模型应用于所生成的所述待预测查询语句的特征数据来预测所述待预测查询语句是否被命中；通过计算机集群对被命中的所述待预测查询语句进行预计算，并存储所述被命中的所述待预测查询语句的查询结果。根据本申请实施例的第二方面，提供了一种预测模型训练方法，包括：获取训练样本集合，其...

【技术保护点】
1.一种数据查询方法，其特征在于，包括：确定目标事实表，从所述目标事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个超时查询语句；基于所述多个超时查询语句构建召回集，所述召回集包括覆盖所述多个超时查询语句的查询结果的待预测查询语句；获取所述待预测查询语句的特征数据，通过将预测模型应用于所生成的所述待预测查询语句的特征数据来预测所述待预测查询语句是否被命中；通过计算机集群对被命中的所述待预测查询语句进行预计算，并存储所述被命中的所述待预测查询语句的查询结果。

【技术特征摘要】
1.一种数据查询方法，其特征在于，包括：确定目标事实表，从所述目标事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个超时查询语句；基于所述多个超时查询语句构建召回集，所述召回集包括覆盖所述多个超时查询语句的查询结果的待预测查询语句；获取所述待预测查询语句的特征数据，通过将预测模型应用于所生成的所述待预测查询语句的特征数据来预测所述待预测查询语句是否被命中；通过计算机集群对被命中的所述待预测查询语句进行预计算，并存储所述被命中的所述待预测查询语句的查询结果。2.根据权利要求1所述的方法，其特征在于，在确定目标事实表之后，还包括：从第一数据仓库获取所述目标事实表和所述目标事实表对应的目标维度表；基于所述目标事实表和所述目标事实表对应的目标维度表构建多维数据模型。3.根据权利要求2所述的方法，其特征在于，在构建召回集之前，还包括：基于所述目标事实表对应的至少一个数据请求，对所述多个超时查询语句进行归一化处理。4.根据权利要求3所述的方法，其特征在于，对所述多个超时查询语句进行归一化处理包括：获取所述多个超时查询语句中每个所述超时查询语句的查询结果在所述多维数据模型中对应的维度和/或度量；根据所述维度和/或度量的属性特征，将同一所述维度和/或度量对应的不同所述超时查询语句进行重构。5.根据权利要求2所述的方法，其特征在于，所述超时查询语句为n个，基于所述多个超时查询语句构建召回集包括：S11、获取所述n个超时查询语句中每个所述超时查询语句在所述多维数据模型中对应的维度；S12、创建召回集，将覆盖了最多维度的超时查询语句存储在所述召回集内；S13、创建语句集，将除所述召回集内的超时查询语句之外的n-1个超时查询语句存储在所述语句集内；S14、根据所述召回集内的所述超时查询语句确定所述召回集覆盖的维度；S15、计算所述语句集内的第i个超时查询语句的维度与所述召回集覆盖的维度的并集，得到并集覆盖维度，其中，1≤i≤n-1；S16、判断所述并集覆盖维度是否大于所述召回集覆盖的维度；S17、若否，则将i自增1并继续执行步骤S15；S18、若是，则将所述第i个超时查询语句添加到所述召回集内；S19、根据所述召回集内的所述超时查询语句重新确定所述召回集覆盖的维度；S20、判断所述召回集覆盖的维度是否覆盖所述多维数据模型；S21、若是，则确定所述召回集内的所述超时查询语句为待预测查询语句；S22、若否，则将i自增1并继续执行步骤S15。6.根据权利要求2所述的方法，其特征在于，获取所述待预测查询语句的特征数据包括：获取所述待预测查询语句在所述预设观察周期内的被命中数量；获取所述目标事实表在所述预设观察周期内的查询数量、所述查询数量的统计特征、属性信息和时间特征信息；获取所述待预测查询语句的查询结果在所述多维数据模型中对应的维度的统计特征和维度覆盖量；获取所述待预测查询语句的查询结果在所述多维数据模型中对应的度量的统计特征和度量覆盖量；根据所述待预测查询语句的查询结果在所述多维数据模型中对应的维度的查询频次，确定所述待预测查询语句的特征数据。7.根据权利要求2所述的方法，其特征在于，通过计算机集群对被命中的所述待预测查询语句进行预计算包括：从所述多维数据模型中获取被命中的所述待预测查询语句的查询结果；存储所述被命中的所述待预测查询语句的计算结果包括：将所述被命中的所述待预测查询语句的查询结果存储至第二数据仓库。8.根据权利要求7所述的方法，其特征在于，在将所述被命中的所述待预测查询语句的查询结果存储至第二数据仓库之后，还包括：生成所述待预测查询语句的查询结果对应的数据立方体。9.一种预测模型训练方法，其特征在于，包括：获取训练样本集合，其中，所述训练样本集合包括多组训练样本以及每组所述训练样本对应的训练标签，每组所述训练样本包括多个样本预测查询语句中每个所述样本预测查询语句对应的特征数据，所述训练标签包括多个样本预测查询语句中每个所述样本预测查询语句被命中或未被命中；通过所述训练样本集合对预测模型进行训练，得到所述预测模型，所述预测模型使得所述训练样本和所述训练标签相关联。10.根据权利要求9所述的方法，其特征在于，获取训练样本集合包括：确定样本事实表，从所述样本事实表的查询日志中获取在预设观察周期内超过查询时间阈值的多个样本超时查询语句；基于所述多个样本超时查询语句构建...

【专利技术属性】
技术研发人员：夏元昉，赵亚辉，刘晓辉，王奇，曾宪玺，张荣华，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人