用于分布式数据库查询引擎的系统和方法技术方案

技术编号：21736014 阅读：72 留言：0更新日期：2019-07-31 19:10

在本文中公开了用于分布式数据库查询引擎的系统和方法。系统包括网关服务器和多个工作者节点。网关服务器被配置为将包含存储在具有多个数据节点的分布式存储簇内的数据的数据库的数据库查询分成多个局部查询，并且根据多个中间结果构造查询结果。多个工作者节点中的每个工作者节点被配置为通过扫描与存储在分布式存储簇的至少一个数据节点上的相应局部查询相关的数据，来处理多个局部查询的相应局部查询，并且生成存储在工作者节点的存储器内的多个中间结果的一个中间结果。

System and Method for Distributed Database Query Engine

全部详细技术资料下载

【技术实现步骤摘要】
用于分布式数据库查询引擎的系统和方法本申请是国际申请日为2013年12月20日、国际申请号为PCT/US2013/077240、专利技术名称为“用于分布式数据库查询引擎的系统和方法”的PCT申请的中国国家阶段申请的分案申请，该中国国家阶段申请的申请号为201380069759.9、进入国家阶段日为2015年7月7日，其全部内容结合于此作为参考。交叉引用相关申请本申请要求于2013年1月7日提交的美国专利申请号13/735,820的优先权，该申请之全文并入本文中，以作参考。本申请要求于2013年12月19日提交的欧洲专利申请号13198563.2的优先权，该申请之全文并入本文中，以作参考。
本专利技术总体上涉及数据库，并且尤其涉及用于低查询延迟数据库分析的分布式数据库查询引擎。
技术介绍
计算机和网络计算的发展引起了需要大量数据存储的应用程序。例如，数千万用户可以创建网页并且将图像和文本上传到社会媒体网站中。因此，社会媒体网站每天可以累积大量数据，因此，需要一种用于存储和处理数据的高度可扩展的系统(scalablesystem)。存在促进这样的大量数据存储的多种工具。存在框架，通过使得应用程序能够与成千台计算机的簇(也称为节点)以及千兆字节的数据交互，这些框架支持大规模数据密集型分布式应用程序。例如，称为Hadoop的框架使用分布式、可扩展的、便携式文件系统，称为Hadoop分布式文件系统(HDFS)，用于在Hadoop簇中在数据节点(也称为子节点)之中分布大量数据。为了减少数据节点电力故障或网络故障(包括开关故障)的不利影响，通常在不同的数据节点上复制HD...

【技术保护点】
1.一种系统，包括：网关服务器，被配置为从包含存储在具有多个数据节点的分布式存储簇中的数据的数据库的数据库查询中生成多个局部查询，并且基于多个中间结果构建查询结果；以及多个工作者节点，所述工作者节点与所述数据节点是分开的，其中，所述多个工作者节点中的每个工作者节点被配置为通过扫描与相应局部查询相关并存储在所述分布式存储簇中的至少一个数据节点上的数据，来处理所述多个局部查询中的相应局部查询，并且其中，所述多个工作者节点中的每个工作者节点进一步被配置为生成所述多个中间结果中的存储在所述工作者节点的存储器中的一个中间结果，其中，所述工作者节点中的至少一个工作者节点进一步被配置为基于所述查询的输入文件块的量和位置信息，将相应局部查询分成多个从属局部查询。

【技术特征摘要】
2013.12.19 EP 13198563.2;2013.01.07 US 13/735,8201.一种系统，包括：网关服务器，被配置为从包含存储在具有多个数据节点的分布式存储簇中的数据的数据库的数据库查询中生成多个局部查询，并且基于多个中间结果构建查询结果；以及多个工作者节点，所述工作者节点与所述数据节点是分开的，其中，所述多个工作者节点中的每个工作者节点被配置为通过扫描与相应局部查询相关并存储在所述分布式存储簇中的至少一个数据节点上的数据，来处理所述多个局部查询中的相应局部查询，并且其中，所述多个工作者节点中的每个工作者节点进一步被配置为生成所述多个中间结果中的存储在所述工作者节点的存储器中的一个中间结果，其中，所述工作者节点中的至少一个工作者节点进一步被配置为基于所述查询的输入文件块的量和位置信息，将相应局部查询分成多个从属局部查询。2.根据权利要求1所述的系统，其中，所述多个工作者节点中的每个工作者节点进一步被配置为通过扫描与存储在所述分布式存储簇的所述至少一个数据节点上的相应局部查询相关的数据的一部分，来处理所述多个局部查询中的相应局部查询，并且生成存储在所述工作者节点的存储器中的近似中间结果。3.根据权利要求2所述的系统，其中，所述网关服务器进一步被配置为基于至少一个近似中间结果来构建近似查询结果。4.根据权利要求1所述的系统，其中，所述网关服务器进一步被配置为基于所述多个中间结果的一部分来构建近似查询结果。5.根据权利要求1所述的系统，其中，所述网关服务器进一步被配置为识别离散的工作者节点，进一步将分配给所述离散的工作者节点的局部查询分成多个从属局部查询，并且将所述多个从属局部查询分配给所述多个工作者节点中的一些工作者节点，其中，所述离散的工作者节点是未能向所述网关服务器报告进度、或者在指定时间段之后向所述网关服务器报告低于指定值的进度的工作者节点。6.根据权利要求1所述的系统，其中，所述多个工作者节点中的每个工作者节点是在所述分布式存储簇内运行相应数据节点的服务。7.根据权利要求1所述的系统，进一步包括：元数据缓存，被配置为缓存所述数据库的表格级元数据以及所述分布式存储簇的文件级元数据。8.根据权利要求7所述的系统，其中，所述元数据缓存被配置为保持来自用于所述数据库查询的前一数据库查询的缓存的元数据。9.根据权利要求1所述的系统，其中，所述多个工作者节点中的每个工作者节点将心跳消息定期发送给所述网关服务器，以通过所述工作者节点报告局部查询处理的状态。10.根据权利要求1所述的系统，其中，所述网关服务器进一步被配置为从客户端装置接收指令，以返回近似查询结果或终止所述数据库查询的处理。11.根据权利要求1所述的系统，其中，所述网关服务器进一步被配置为指示所述工作这节点立即返回近似中间结果，并且根据所述近似中间结果将近似查询结果返回...

【专利技术属性】
技术研发人员：拉戈特姆·穆尔蒂，拉贾特·格尔，
申请(专利权)人：脸谱公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人