聚合查询的数据库系统和处理技术方案

技术编号:21900343 阅读:54 留言:0更新日期:2019-08-17 19:29
处理单元可以确定数据集的第一子集,其包括基于数据记录的测量值选择的数据记录。该处理单元可以确定将断言映射到与断言相关联的数据记录的索引以及该记录的近似值。处理单元可以针对第一子集来处理查询以提供第一结果和第一精确度值,确定第一精度值不满足精确度标准,以及针对该索引来处理查询。在一些示例中,处理单元可以针对包括满足预定断言的数据记录的第二子集来处理查询。在一些示例中,处理单元可以接收数据记录并且确定第一子集。数据记录可以包括相应的测量值。具有较高测量值的数据记录可以比具有较低测量值的数据记录更频繁地出现在第一子集中。

Database System and Processing of Aggregated Queries

【技术实现步骤摘要】
【国外来华专利技术】聚合查询的数据库系统和处理
技术介绍
用户越来越多地转向计算服务(诸如数据库引擎)以分析大量的数据。例如,在线分析处理(OLAP)系统可以被设计为分析临床测试数据或商务智能(BI)数据。然而,许多数据库系统不能提供对大数据集的实时或近实时的查询响应。因此,用户必须提前计划他们的分析,并且不能参与探索分析以试图对数据中的模式进行定位。一些“近似查询处理”(AQP)数据库系统通过提供对查询的近似答案来减少响应延迟。然而,这些系统所提供的答案可能远离实际答案,使得用户无法依赖于近似结果。
技术实现思路
本公开描述了用于构建数据库和/或处理查询的系统、方法和计算机可读介质。在一些示例中,一种计算设备可以确定数据集的第一子集,该第一子集包括至少部分地基于第一数据记录的相应测量值而从数据集中选择的第一数据记录。该计算设备可以确定索引,索引模块包括从断言到与断言相关联的数据集的一个或多个第二数据记录和到与一个或多个第二数据记录相关联的相应近似值的映射。此外,该计算设备还可以针对第一子集来处理查询以提供第一结果和第一精确度值;确定第一精确度值不满足预定精确度标准;以及针对索引来处理查询以提供第二结果。根据在本文中的示例查询处理技术,计算设备可以针对数据集的第一子集来处理查询以提供第一查询结果,第一子集包括至少部分地基于第一数据记录的相应测量值而从数据集中选择的第一数据记录。计算设备可以确定第一查询值不满足预定精确度标准。此外,计算设备可以针对数据集的第二子集来处理查询以提供第二查询结果,第二子集包括从数据集中选择的第二数据记录,其中第二数据记录中的个体记录满足第二子集的预定断言。根据在本文中的示例数据库构建技术,计算设备可以经由通信接口接收多个数据记录。多个数据记录中的第一数据记录包括第一离散值和第一测量值,并且多个数据记录中的第二数据记录包括第二离散值和大于第一测量值的第二测量值。计算设备可以确定多个数据记录中的第一子集,其中第二数据记录在第一子集中比第一数据记录更频繁地出现。本
技术实现思路
被提供是为了以简化的形式介绍一些概念,这些概念将在下面的具体实施方式中被进一步描述。本
技术实现思路
并不旨在标识所要求保护的主题内容的关键特征或必要特征,也并不旨在被用于帮助确定所要求保护的主题内容的范围。例如,术语"技术"可以例如指系统、方法、计算机可读指令,模块,算法,硬件逻辑和/或操作,如上文和整个文档中所描述的上下文所允许的。附图说明参考附图描述具体实施方式。在附图中,附图标记的最左边的数字标识该附图标记首次出现的附图。不同附图中的相同附图标记指示相似或相同的项。图1示出了描述用于构建如本文所述的数据库或处理查询的示例环境的框图;图2是描绘根据本文所述的各种示例的被配置为参与构建数据库或处理查询的示例计算设备的框图;图3是描述根据本文所述的各种示例的在构建数据库或处理查询期间的示例模块交互以及示例数据项目的数据流示图;图4是示出了根据本文所述的各种示例的用于构建数据库或处理查询的示例过程的流程图;图5是示出了根据本文所述的各种示例的用于构建数据库或处理查询的示例过程的流程图;图6是示出了根据本文所述的各种示例的用于处理查询和示例数据项目的示例过程的数据流图;图7是示出了根据本文所述的各种示例的用于处理查询的示例数据项目的示例过程的数据流图;图8是示出了根据本文所述的各种示例的用于处理查询的示例过程的流程图;图9是示出了根据本文所述的各种示例的用于处理查询的示例过程数据流图,以及示例数据项目;图10是示出了根据本文所述的各种示例的用于处理查询的示例过程的数据流图,以及示例数据项目;图11是示出了根据本文所述的各种示例的用于构建数据库的示例过程的数据流图,以及示例数据项目;图12示出了根据本文所述的各种示例的用于构建数据库的示例过程的数据流图,以及示例数据项目。具体实施方式概述本文描述的示例提供了用于在数据库列中改进查询的处理(例如,提供数据的和、计数或其它统计的聚合查询)的技术和构造。本文描述的示例提供了允许计算系统更快速地提供近似查询响应的技术和构造。与精确(非近似)查询响应相比较,本文中的示例在近似查询响应中提供了关于可能的误差的量值的精确信息。本文中的示例可以减少用户实现用户的目标所需系统交互的数量,从而减少了系统与用户之间通信所需的带宽。本文中的示例例如关于OLAP系统和关系数据库而被给出,但是这些示例不是限制性的。本文中的示例技术可以适用于其它数据存储系统(例如,XML(可扩展标记语言)数据库和HADOOP文件)。参考附图1-12进一步描述了各种实体、电子设备的配置、以及用于处理查询(例如,用于OLAP应用)的方法。虽然本文中所描述的许多示例涉及服务器和其它非消费电子设备,但是也可以使用其他类型的电子设备(例如,如参考图1所讨论)。贯穿本文中的“用户”的引用可以指人类用户或指与计算系统交互的其他实体。说明性环境图1示出了示例性环境100,其中数据库构建系统或查询处理系统的示例可以运行,和/或其中可以执行诸如那些本文所述的数据库构建方法或查询处理方法。在所示示例中,环境100中所示出的各种设备和/或组件包括计算设备102(1)-102(N)(在本文中单独地和/或共同地指引用102),其中,N为任何大于和/或等于1的整数,以及计算设备104(1)-104(K)(在本文中单独地和/或共同地指引用104),其中K为大于和/或等于1的任何整数。在一些示例中,N=K;在一些其他的实例中,N>K或N<K。尽管被示为,例如,台式计算机、膝上型计算机、平板计算机和/或蜂窝电话,但是计算设备102和/或计算设备104可以包括多种多样类型的设备类别、类型、和/或型号,而不限于特定类型的设备。在所示示例中,计算设备102(1)-102(N)可以为在集群计算系统106(例如,诸如微软AZURE(MICROSOFTAZURE),谷歌云平台(GOOGLECLOUDPLATFORM)的云服务)中的计算节点,或具有一些离散计算节点(设备102)另一集群计算系统(“计算集群”或“集群”),这些离散计算节点一起工作以完成分配给此整个集群的计算任务。在一些示例中,计算设备104可以是集群106的客户端,并且可以向集群106提交作业和/或从集群106接收作业结果。在集群106中的计算设备102(1)-102(N)例如可以共享资源、平衡负载、提高性能和/或提供故障切换支持和/或冗余。附加地或备选地,计算设备104可以以集群来操作和/或以分组配置来操作。在所示示例中,计算设备104与计算设备102通信。附加地或备选地,计算设备104可以例如利用集群106的负载平衡设备或作业协调设备来与集群106通信,并且集群106或其组件可以向个体计算设备102路由传输。一些基于集群的系统可以具有部署在云中的集群的全部或部分。云计算允许将计算资源提供为服务而不是可递送的产品。例如,在云计算环境中,资源(诸如,计算能力、软件、信息和/或网络连接)通过网络(诸如,互联网)被提供(例如,通过租赁协议来提供)。如本文中所使用的,参考计算群集、节点和作业所使用的术语“计算”通常是指计算、数据操纵和/或其它编程控制的操作。参考群集、节点、作业所使用的术语“资源”通常是指集群所提供本文档来自技高网
...

【技术保护点】
1.一种设备,包括:处理单元;以及计算机可读介质,所述计算机可读介质包括被配置用于由所述处理单元执行的模块,所述模块包括:采样模块,所述采样模块被配置为确定数据集的第一子集,所述第一子集包括至少部分地基于第一数据记录的相应测量值而从所述数据集中选择的所述第一数据记录;索引模块,所述索引模块被配置为确定索引,所述索引包括从断言到所述数据集的与所述断言相关联的一个或多个第二数据记录和到与所述一个或多个第二数据记录相关联的相应近似值的映射;以及查询模块,所述查询模块被配置为:针对所述第一子集来处理查询,以提供第一结果和第一精确度值;确定所述第一精确度值不满足预定的精确度标准;以及针对所述索引来处理所述查询,以提供第二结果。

【技术特征摘要】
【国外来华专利技术】2016.06.24 US 15/192,9091.一种设备,包括:处理单元;以及计算机可读介质,所述计算机可读介质包括被配置用于由所述处理单元执行的模块,所述模块包括:采样模块,所述采样模块被配置为确定数据集的第一子集,所述第一子集包括至少部分地基于第一数据记录的相应测量值而从所述数据集中选择的所述第一数据记录;索引模块,所述索引模块被配置为确定索引,所述索引包括从断言到所述数据集的与所述断言相关联的一个或多个第二数据记录和到与所述一个或多个第二数据记录相关联的相应近似值的映射;以及查询模块,所述查询模块被配置为:针对所述第一子集来处理查询,以提供第一结果和第一精确度值;确定所述第一精确度值不满足预定的精确度标准;以及针对所述索引来处理所述查询,以提供第二结果。2.根据权利要求1所述的设备,其中:所述采样模块还被配置为:确定所述数据集的断言相关联子集,所述断言相关联子集包括从所述数据集中选择的第三数据记录,其中所述第三数据记录中的个体记录满足所述断言相关联子集的预定的断言;并且所述查询模块还被配置为:针对所述断言相关联子集来处理所述查询。3.根据权利要求2所述的设备,其中所述查询模块被配置为:响应于确定所述第一精确度值不满足所述预定的精确度标准,针对所述断言相关联子集来处理所述查询。4.根据权利要求2或3所述的设备,其中:所述采样模块还被配置为:确定所述数据集的第二断言相关联子集,所述第二断言相关联子集包括从所述数据集中选择的第四数据记录;所述第四数据记录中的个体记录满足所述第二断言相关联子集的预定的第二断言;并且所述采样模块被配置为:确定所述断言相关联子集和所述第二断言相关联子集,所述断言相关联子集和第二断言相关联子集具有小于预定的阈值数目的相应数目的数据记录。5.根据权利要求1至4中任一项所述的设备,其中所述查询模块还被配置为:确定所述第一子集的一个或多个数据记录,其中所述一个或多个数据记录中的每个数据记录满足所述查询;以及基于所述一个或多个数据记录的计数来确定所述第一精确度值。6.根据权利要求1至5中任一项所述的设备,其中所述查询模块还被配置为:使用所述查询来搜索所述索引,以确定所述数据集的候选数据记录;至少部分地基于所述相应近似值来选择多个所述候选数据记录,以提供所选择的数据记录;以及至少部分地基于所选择的所述数据记录的相应测量值来确定所述第二结果。7.一种方法,包括:针对数据集的第一子集来处理查询以提供第一查询结果,所述第一子集包括至少部分地基于所述第一数据记录的相应测量值而从所述数据集中选择的第一数据记录;确定所述第一查询值不满足预定的精确度标准;以及针对所述数据集的第二子集来处理所述查询以提供第二查询结果,所述第二子集包括从所述数据集中选择的第二数据记录,其中所述第二数据记录中的个体记录满足所述第二子集的预定的断言。8.根据权利要求7所述的方...

【专利技术属性】
技术研发人员:丁博麟黄思露王篪K·查克拉巴蒂S·乔杜里
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1