分布式数据库作业数据倾斜检测制造技术

技术编号：18611552 阅读：19 留言：0更新日期：2018-08-04 23:17

一种用于识别数据倾斜是否导致了分布式数据库的查询的映射阶段和/或化简阶段中的延迟的系统和方法。该系统和方法识别与数据库查询有关的各种度量的值。这些度量包括映射阶段和化简阶段持续时间和各种有关的度量。该系统和方法收集多个查询的统计数据以确定度量和映射阶段和化简阶段持续时间之间的相关性水平。基于统计数据，该系统和方法确定查询/响应的映射和化简阶段中的一个或两个是否耗费比期望的时间更长的时间。如果持续时间比期望的更长，则系统将标识延迟是由数据倾斜导致的，并且通知查询的发起者。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】分布式数据库作业数据倾斜检测
本公开的实施例总体涉及数据处理，并且更具体地但并非限制性地涉及在数据库查询期间延迟来源的确定。
技术介绍
包括某些SQL数据库、Hadoop数据库(例如的数据库)等跨众多计算机分布的数据库接收查询，对于某些此类数据库，针对分布在不同的服务器上的数据集的不同部分并行执行这些查询，然后向查询的发起者和/或一个或多个其他指定的位置返回响应。当被查询的数据均匀地分布在多个服务器中时，对查询的响应通常返回得最快。在所有其他情况相同的情况下，当被查询的数据集完全集中或大部分集中于少数的服务器(或一个服务器)上时，某些分布式数据库耗费较长的时间来响应查询。因此，这种数据的集中(有时称为“数据倾斜”)可能会导致长时间延迟。然而，所有其他的情况并不总是相同。可能存在各种其他的原因导致对查询的响应被长时间延迟，诸如资源拥塞。即，分布式数据库可能同时接收大量的查询。在这种情况下，即使是对分布良好的数据的查询也将耗费很长时间。发生这种情况是因为各种查询是由各种用户和用户组设计和发送到数据库服务器的。在用户中通常很少甚至没有协调来保证系统接收稳定的查询供应，而不是在一些时间段期间(例如，工作日从上午9点到下午5点)接收很多查询，而在其他时间(例如，周末凌晨2点)少有查询。尽管某些数据库系统基于进入的查询重新分配数据，但在某些情况下，这并非必要，即使当用于特定查询的数据是严重倾斜的。例如，某些查询可能相当简单和/或在很少的数据上执行，使得即使当该数据大比例集中在一个服务器上时，只要数据库(或针对该查询的数据所集中的特定服务器)不拥塞，响应就会在可接受的时...

【技术保护点】
1.一种方法，包括：针对所选择的对分布式数据库的多个查询中的每个查询：确定查询的阶段的持续时间；确定与所述阶段的持续时间相关的度量的值；以及确定所述阶段的持续时间与所述多个查询中的每个查询的对应阶段的平均持续时间之间的相对差值；基于所确定的持续时间和所确定的值，计算所述度量和所述阶段的持续时间之间的相关性水平以及所述平均持续时间和所述阶段的持续时间之间的最大相对差值；针对特定查询，当所述相关性水平超出阈值且所述相对差值超出所述最大相对差值的阈值比例时，将所述特定查询分类为在所述分布式数据库中导致数据倾斜；以及显示将所述特定查询标识为在分布式数据库中导致数据倾斜的消息。

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：针对所选择的对分布式数据库的多个查询中的每个查询：确定查询的阶段的持续时间；确定与所述阶段的持续时间相关的度量的值；以及确定所述阶段的持续时间与所述多个查询中的每个查询的对应阶段的平均持续时间之间的相对差值；基于所确定的持续时间和所确定的值，计算所述度量和所述阶段的持续时间之间的相关性水平以及所述平均持续时间和所述阶段的持续时间之间的最大相对差值；针对特定查询，当所述相关性水平超出阈值且所述相对差值超出所述最大相对差值的阈值比例时，将所述特定查询分类为在所述分布式数据库中导致数据倾斜；以及显示将所述特定查询标识为在分布式数据库中导致数据倾斜的消息。2.根据权利要求1所述的方法，其中，所述阶段为映射阶段。3.根据权利要求2所述的方法，其中，所述查询的度量的值为在所述查询的映射阶段读取了多少条记录的计数。4.根据权利要求1所述的方法，其中，所述阶段为化简阶段。5.根据权利要求4所述的方法，其中，所述查询的度量的值为在所述查询的化简阶段读取了多少字节的计数。6.根据权利要求1所述的方法，其中，确定阶段的相对差值包括：确定所述多个查询中的每个查询的对应阶段的标准偏差，并且用所述阶段的持续时间和所述多个查询中的每个查询的对应阶段的平均持续时间之间的绝对差值除以所述标准偏差。7.根据权利要求1所述的方法，其中，所选择的每个查询是基于所具有的所述度量的值位于所定义的值的范围内而选择的。8.一种系统，包括一组处理单元和非暂时性机器可读介质，所述非暂时性机器可读介质存储有指令集，当所述指令集被至少一个所述处理单元执行时：针对所选择的对分布式数据库的多个查询中的每个查询：确定查询的阶段的持续时间；确定与所述阶段的持续时间相关的度量的值；以及确定所述阶段的持续时间与所述多个查询中的每个查询的对应阶段的平均持续时间之间的相对差值；基于所确定的持续时间和所确定的值，计算所述度量和所述阶段的持续时间之间的相关性水平以及所述平均持续时间和所述阶段的持续时间之间的最大相对差值；针对特定查询，当所述相关性水平超出阈值且所述相对差值超出所述最大相对差值的阈值比例时，将所述特定查询分类为在所述分布式数据库中导致数据倾斜；以及显示将所述特定...

【专利技术属性】
技术研发人员：陈坦，陈昊，张勇，孙立斌，李鑫，
申请(专利权)人：电子湾有限公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人