数据查询方法、装置、设备及存储介质制造方法及图纸

技术编号：21628207 阅读：31 留言：0更新日期：2019-07-17 10:51

本发明专利技术实施例提供一种数据查询方法、装置、设备及存储介质。该方法包括：接收SQL查询请求信息；解析所述SQL查询请求信息，获取所述SQL查询请求信息对应的待操作的数据表数量、所有数据表的文件大小及当前集群可用内存大小；依据所述数据表数量、所有数据表的文件大小及当前集群可用内存大小，生成执行路径计划；根据所述执行路径计划调用一个或多个执行引擎进行查询，输出对应所述SQL查询请求信息的查询结果。通过本发明专利技术实施例的技术方案，针对海量数据进行查询时，能够提升查询性能。

Data query methods, devices, devices and storage media

全部详细技术资料下载

【技术实现步骤摘要】
数据查询方法、装置、设备及存储介质
本专利技术涉及数据库
，尤其涉及一种数据查询方法、装置、设备及存储介质。
技术介绍
海量数据现在已经进入全球经济的各个部门。就像其他的生产必备要素(例如，硬资产和人力资本)一样，许多现代经济活动离开了它也根本不能发生。为了更有效利用这些数据，提升企业的竞争力，必须有相应的手段来快速、准确、高效地对海量的数据进行分析，挖掘数据中存在的潜在价值，并将其转化成决策，而作为大数据分析的产品hadoop应运而生。Hadoop作为一个分布式产品，通过大量廉价的硬件设备组成的集群上运行应用程序,全面地将计算推向数据。Hive作为一个基于Hadoop的数据仓库平台，它可以将结构化的数据文件映射成一张数据表，通过它，我们可以方便地进行ETL的工作。Hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行，而不需要另外开发专门mapreduce应用，对于数据分析人员来说，基于关系型数据库的SQL的编写已经作为一个基本要求，HIVE的出现将Hadoop上的开发降低了很多门槛。也出现了基于内存迭代的分布式计算框架，如SparkSQL。它要求能够快速的返回用户的查询需求，他最大特点也是最大卖点就是它的快速，他和Hive一样都是基于hdfs文件系统，都支持类SQL语句。现有Hive和SparkSQL在处理海量数据分析的时候有如下缺陷：HIVE是通过将SQL语句自动转化成mapreduce任务，然后通过mapreduce计算框架进行数据分析处理，为此Hive的性能完全受限于ma...

【技术保护点】
1.一种数据查询方法，其特征在于，所述方法包括：接收SQL查询请求信息；解析所述SQL查询请求信息，获取所述SQL查询请求信息对应的待操作的数据表数量、所有数据表的文件大小及当前集群可用内存大小；依据所述数据表数量、所有数据表的文件大小及当前集群可用内存大小，生成执行路径计划；根据所述执行路径计划调用一个或多个执行引擎进行查询，输出对应所述SQL查询请求信息的查询结果。

【技术特征摘要】
1.一种数据查询方法，其特征在于，所述方法包括：接收SQL查询请求信息；解析所述SQL查询请求信息，获取所述SQL查询请求信息对应的待操作的数据表数量、所有数据表的文件大小及当前集群可用内存大小；依据所述数据表数量、所有数据表的文件大小及当前集群可用内存大小，生成执行路径计划；根据所述执行路径计划调用一个或多个执行引擎进行查询，输出对应所述SQL查询请求信息的查询结果。2.根据权利要求1所述的数据查询方法，其特征在于，所述依据所述数据表数量、所有数据表的文件大小及当前集群可用内存大小，生成执行路径计划包括：当所述数据表数量为1时，将所述数据表的文件大小与当前集群的可用内存大小的第一预设阈值相比较；若所述数据表的文件大小小于所述可用内存大小的第一预设阈值时，则采用SparkSQL执行引擎查询对应所述SQL查询请求信息的数据；若所述数据表的文件大小大于等于所述第一预设阈值且存在查询条件时，则采用Hive执行引擎查询对应所述SQL查询请求信息的数据。3.根据权利要求2所述的数据查询方法，其特征在于，所述若所述数据表的文件大小大于等于所述第一预设阈值且存在查询条件时，则采用Hive执行引擎查询对应所述查询请求信息的数据包括：依据所述数据表的字段名以及所述查询条件过滤与所述SQL查询请求信息不相关的数据，获取与所述SQL查询请求信息相关的有效数据，提取所述有效数据生成临时数据表；进一步判断所述临时数据表的文件大小是否仍然大于等于所述第一预设阈值，若所述临时数据表的文件大小仍然大于等于所述第一预设阈值，则按照字段名和所述子查询条件继续过滤与所述SQL查询请求信息不相关的数据，在过滤掉与所述SQL查询请求信息不相关的数据后，采用Hive执行引擎查询对应所述查询请求信息的数据。4.根据权利要求1所述的数据查询方法，其特征在于，所述依据所述数据表数量、所有数据表的文件大小及当前集群可用内存大小，生成执行路径计划包括：当所述数据表数量为N，N为整数且N≥2时，比较N个所述数据表汇总后的文件大小与当前集群可用内存空间大小的第二预设阈值；若N个所述数据表汇总后的文件大小小于所述第二预设阈值，则采用SparkSQL执行引擎查询对应所述SQL查询请求信息的数据；若N个所述数据表汇总后的文件大小大于等于所述第二预设阈值且存在查询条件，则依据所述查询条件过滤其中1个数据表内与所述SQL查询请求信息不相关的数据并生成相应的第一临时数据表；若用所述第一临时数据表替代相应的过滤前的所述数据表并与所述N个数据表中的其余N-1个未过滤的数据表汇总得到临时数据表汇总文件，判断所述临时数据表汇总文件大小是否大于等于所述第二预...

【专利技术属性】
技术研发人员：王保强，
申请(专利权)人：中国移动通信集团海南有限公司，中国移动通信集团公司，
类型：发明
国别省市：海南,46

全部详细技术资料下载我是这个专利的主人