【技术实现步骤摘要】
【国外来华专利技术】可扩展数据跳过
技术介绍
[0001]本专利技术涉及提供可以是用户定义的和可扩展的数据跳过技术。
[0002]数据跳过是用于对结构化数据进行大数据分析的技术。例如,表格数据(包括多个行)可涉及为行子集存储概要元数据。该概要元数据可用于确定行子集与查询无关(诸如在SQL中)并且因此可在查询处理期间被跳过。这导致显著的性能改进和成本降低。
[0003]常规地,数据跳过被应用于结构化数据,并且通常每列被存储,并且当例如列是诸如整数或浮点的数字并且查询谓词是例如{<,≤,>,≥,=}之一时工作。在这种情况下,所使用的概要元数据是列的最小值和最大值。另一示例是当列是数字或字符串并且查询谓词是例如{=,IN}之一时。在这种情况下,所使用的概要元数据是值的列表或布隆(bloom)过滤器。
[0004]常规数据跳过可能是有用的,但是被限制于相对有限的一组使用。需要可在附加环境中提供数据跳过的技术,这些技术可以是用户定义的和可扩展的,并且可应用于结构化、半结构化或非结构化数据。
技术实现思路
[0005]本系统和方 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在计算机系统处接收查询,所述计算机系统包括处理器、可由所述处理器访问的存储器以及存储在所述存储器中并且可由所述处理器执行的计算机程序指令;在所述计算机系统处修改所接收的查询以利用至少一个数据跳过索引来评估所述查询的至少一个准则,其中,所述至少一个数据跳过索引包括关于数据的至少一个属性的索引,所述数据的至少一个属性排除不满足所述至少一个准则的那些数据项的至少一部分,并且其中,基于从应用编程接口接收的信息来生成所述至少一个数据跳过索引或从所述至少一个准则到所述至少一个数据跳过索引的映射中的至少一个;以及在所述计算机系统处评估所述查询。2.如权利要求1所述的方法,其中所述至少一个数据跳过索引通过以下步骤产生:在所述计算机系统处从所述应用编程接口接收定义数据跳过索引类型的信息;在所述计算机系统处从所述应用编程接口接收解释所述至少一个准则的信息;在所述计算机系统处生成与所述定义的数据跳过索引类型和所述定义的至少一个准则有关的元数据;以及在所述计算机系统处基于所生成的元数据来生成所述至少一个数据跳过索引。3.如权利要求2所述的方法,其中,所述接收到的查询被表示为表达树,并且通过利用优化规则以使用表示所述至少一个准则的跳过要求并引用至少一个数据跳过索引的子句来标记所述表达树的至少一个节点来修改所述表达树。4.如权利要求3所述的方法,其中所述至少一个准则是结构化查询语言(SQL)谓词。5.如权利要求1所述的方法,其中所述至少一个数据跳过索引通过以下步骤产生:在所述计算机系统处从所述应用编程接口接收定义多个数据跳过索引类型的信息;在所述计算机系统处从所述应用编程接口接收定义多个准则的信息;在所述计算机系统处生成与每个定义的数据跳过索引类型和每个定义的准则有关的元数据;在所述计算机系统处,组合与每个定义的数据跳过索引类型和每个定义的准则有关的元数据,以形成与所述多个定义的数据跳过索引类型和所述多个定义的准则有关的元数据;以及在所述计算机系统处基于所述生成的元数据来生成所述至少一个数据跳过索引。6.如权利要求5所述的方法,其中,所述接收到的查询被表示为表达树,并且通过利用多个优化规则以使用表示准则的跳过要求并引用数据跳过索引的子句来标记该表达树的多个节点中的每一个节点来修改该表达树。7.如权利要求6所述的方法,其中每个准则是结构化查询语言(SQL)谓词。8.一种系统,包括处理器、可由所述处理器访问的存储器以及存储在所述存储器中并且可由所述处理器执行以执行以下操作的计算机程序指令:接收查询;修改所述接收的查询以利用至少一个数据跳过索引来评估所述查询的至少一个准则,其中,所述至少一个数据跳过索引包括关于数据的至少一个属性的索引,所述数据的至少一个属性排除不满足所述至少一个准则的那些数据项的至少一部分,并且其中,基于从应用编程接口接收的信息来生成所述至少一个数据跳过索引或从所述至少一个准则到所述
至少一个数据跳过索引的映射中的至少一个;以及评估该查询。9.如权利要求8所述的系统,其中所述至少一个数据跳过索引通过以下步骤生成:从所述应用编程接口接收解释数据跳过索引类型的信息;从所述应用编程接口接收定义所述至少一个准则的信息;生成与所述定义的数据跳过索引类型和所定义的至少一个准则有关的元数据;以及基于所生成的元数据来生成所述至少一个数据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。