范围查询和数据流处理的方法和设备技术

技术编号:2846452 阅读:153 留言:0更新日期:2012-04-11 18:40
公开了数据流处理系统使用的范围查询技术。在本发明专利技术的一个方面,提供一种标引连续范围查询,用于数据流处理的技术。例如,在处理数据流中使用的技术包含获得将与数据流相关的至少一个范围查询,利用一个或多个虚拟结构,根据所述至少一个范围查询建立范围查询索引,使得查询索引适应于范围查询大小的分布的一个或多个变化。建立范围查询索引的步骤/操作还可包括建立范围查询索引,使得范围查询索引适应在所述至少一个范围查询的监视区域之外的查询位置方面的一个或多个变化。在本发明专利技术的另一方面,提供一种增量处理相对于移动目标的连续范围查询的技术。

【技术实现步骤摘要】

本专利技术一般涉及数据流的处理,更具体地说,涉及在处理数据流中使用的范围查询技术。
技术介绍
可针对快速数据流发出大量的连续范围查询,以便监视各种活动和条件。例如,在金融流应用中,可创建各种连续范围查询,以监视股票和债券的价格和数量。在传感器网络应用中,连续范围查询可被用于监视温度、湿度、交通流量和许多其它读数。注意由于针对输入的数据流重复并且连续地评估这些监视查询,因此它们被称为连续查询。它们与通常只被评估一次的规则查询相反。当数据流以日益快速的速率流动时,连续范围查询的处理变得更困难(即使不是不可能),因为进行监视的计算系统的中央处理器(CPU)的处理能力很快变得有限。数据项可能不得不未处理就被丢弃。即,一些工作量被放弃。但是,更理想的是针对可能快速的数据流,系统处理尽可能多的连续查询。从而,重要的是只针对数据流中的每个数据项,评估潜在相关的查询。快速识别供处理的相关查询的一种方法是使用查询索引。输入流中的每个数据点被用于搜索查询索引,以找出包含该数据点的范围查询。这被称为刺穿(stabbing)查询问题,即,找出由数据点刺入的范围查询。尽管可能概念上简单,不过在流环境中,尤其是如果数据流快速流动,设计有效的二维范围查询索引相当具有挑战性。范围查询索引最好基于主存储器,并且它必须具有两个重要性质低的存储成本和快速的搜索时间。低存储成本重要,使得整个查询索引可被载入主存储器中。从而,在索引搜索操作期间,能够避免由分页引起的潜在性能降低。快速的搜索时间至关重要,使得系统能够处理快速的数据流。范围查询通常难以索引。尽管现有的空间索引,例如R-树(例如参见A.Guttman,“R-treesA Dynamic Index Structure for SpatialSerarching”,Proceedings of ACM SIGMOD International Conferenceon Management of Data,1984,其公开内容在此引为参考)可被用于索引范围查询,不过它们中的多数都是基于盘(disk-based)的方法。从而,它们一般并不适合于其中基于主存储器的方法对快速搜索性能更可取的流环境。最近为快速事件匹配提出了一种基于主存储器的查询索引,称为基于VCR的查询索引,参见2003年9月29日提交的序列号No.10/671938(代理人案卷号YOR920030165US1)、题为“System andMethod for Monitoring Events Against Continual Range Queries”的美国专利申请,其公开内容在此引为参考。一组预定的虚拟结构矩形,即VCR被用于间接预先计算搜索结果。范围查询首先被分解成一个或更多个VCR。每个VCR具有唯一的标识符(ID)和保存在其分解中使用的查询的ID的相关查询ID列表。通过识别给定数据点的覆盖VCR,借助VCR间接进行搜索。尽管它是基于主存储器的方法,这种基于VCR的查询索引也不是专门为流处理设计的。覆盖数据点的VCR的数目可能相当高,降低了搜索性能。基于VCR的查询索引属于基于预定义的虚拟结构(VC)的主存储器索引这一类。VC被用于分解范围查询。每一VC与查询ID列表相关,存储覆盖该VC的查询。对于每一进入的数据点,通过计算覆盖所述数据的VC来进行搜索。根据VC大小,现有的基于VC的查询索引可被分成两类固定大小的和可变大小的。基于VCR的方法是可变大小的,但是覆盖VC的数目可能较大,并且它不是自适应的。存在两种固定大小的方法。一种使用单位大小的网格单元,另一种使用尺寸为L×L,其中L>1的网格单元,参见“Efficient Evaluation of Continuous Range Queries on MovingObjects”,Proceedings of International Conference on Database andExpert Systems Applications,2002,其公开内容在此引为参考。单位大小的网格单元存在问题,因为分解查询所需的VC的数目可能较高,导致高的存储成本。尺寸为L×L,其中L>1的网格单元存在问题,因为范围查询可能与某一网格单元部分相交,导致不清楚范围查询是否确实覆盖数据点。此外,网格单元方法不适应查询大小和查询位置的分布的变化。从而,需要具有一种新的并且更有效的基于主存储器的二维范围查询索引,用于有效的流处理。此外,随着移动计算和位置检测技术的发展,位置感知服务和应用已变得可能。这样的应用可被用于向目标客户传送相关的、及时的吸引人的内容和信息。例如,大型购物中心中的零售店能够向位于零售店附近的潜在客户的个人数字助手(PDA)或蜂窝电话发送及时的电子优惠券。为了提供位置感知服务和应用,必须首先知道移动目标目前位于何处。一组连续范围查询,每一个定义感兴趣的地理区域,可被重复重新评估,以定位移动目标。例如,我们可在旅馆、公寓大楼或地铁出口的位置周围设置一个正方形或圆。通过定期重新评估由所述正方形或圆定义的连续查询,我们能够定位目前位于所述正方形或圆内的移动目标。从而显然对于提供位置感知服务和应用来说,关于移动目标的一组连续范围查询的有效处理极其重要。查询标引(indexing)已被用于加速关于移动目标的连续静态范围查询的处理。这里的“静态”指的是连续范围查询的区域保持固定。借助查询标引,每个目标位置被定期用于搜索查询索引,以找出包含所述目标的所有范围查询。一旦包含目标的范围查询被识别,就向与识别的查询相关的结果中插入目标标识符(ID)。在对照查询索引搜索每个目标位置之后,可得到所有连续范围查询的最新结果。就查询标引来说,极为重要的是进行定期查询评估所用的时间应尽可能地短。在2003年9月29日提交的序列号No.10/671932(代理人案卷号YOR920030164US1)、题为“Method and Structure for MonitoringMoving Objects”的美国专利申请(其公开内容在此引为参考)中,公开一种处理关于移动目标的连续范围查询的基于叠瓦(shingle)的查询标引方法。叠瓦可被定义成放置成覆盖某一区域(例如地理区域)的数字表示的叠瓦状对象的数字表示,而不必被放置在重叠的行中。叠瓦是预先定义的虚拟结构矩形(VCR)。它们被用于分解查询区域,并保存间接预先计算的搜索结果。但是,在这种方法中定义的叠瓦可能是多余的,使每个索引搜索操作和查询处理时间减慢。从而,需要具有一种新的并且更有效的处理关于移动目标的连续静态范围查询,以便提供位置感知服务和应用的技术。
技术实现思路
本专利技术提供数据流处理系统使用的范围查询技术。在本专利技术的一个方面,提供一种标引连续范围查询、在数据流处理中使用的技术。例如,在处理数据流中使用的技术包含获得将与数据流相关的至少一个范围查询,利用一个或多个虚拟结构,根据所述至少一个范围查询建立范围查询索引,使得查询索引适应于范围查询大小的分布的一个或多个变化。建立范围查询索引的步骤/操作还可包括建立范围查询索引,使得范围查询索引适应在所述至少一个范围查询的监视区域之外的查询位置方面的一个或多个变化。在本本文档来自技高网
...

【技术保护点】
一种在处理数据流中使用的方法,包含下述步骤:获得将与数据流相关的至少一个范围查询;和利用一个或多个虚拟结构,根据所述至少一个范围查询建立范围查询索引,使得查询索引适应于范围查询大小的分布的一个或多个变化。

【技术特征摘要】
US 2005-6-17 11/155,2211.一种在处理数据流中使用的方法,包含下述步骤获得将与数据流相关的至少一个范围查询;和利用一个或多个虚拟结构,根据所述至少一个范围查询建立范围查询索引,使得查询索引适应于范围查询大小的分布的一个或多个变化。2.按照权利要求1所述的方法,其中建立范围查询索引的步骤还包括下述步骤把与所述至少一个范围查询相关的监视区域分成一个或多个初始级别的虚拟正方形;为每个初始级别的虚拟正方形定义一个或多个级别的虚拟正方形;把所述至少一个范围查询分解成一个或多个虚拟正方形;和使所述至少一个范围查询的标识符与一个或多个分解后的虚拟正方形相关联。3.按照权利要求2所述的方法,其中建立范围查询索引的步骤还包括响应范围查询大小的分布的一个或多个变化,动态调整范围索引的顶级正方形分区的边长的步骤。4.按照权利要求2所述的方法,其中为每个初始级别的虚拟正方形定义一个或多个级别的虚拟正方形的步骤还包括每个虚拟正方形具有一个局部标识符和一个分区标识符。5.按照权利要求2所述的方法,其中为每个初始级别的虚拟正方形定义一个或多个级别的虚拟正方形的步骤还包括每个虚拟正方形具有一组容纳编码的正方形。6.按照权利要求5所述的方法,其中为每个初始级别的虚拟正方形定义一个或多个级别的虚拟正方形的步骤还包括容纳编码的正方形包含四个四分之一大小的容纳编码的正方形。7.按照权利要求6所述的方法,其中为每个初始级别的虚拟正方形定义一个或多个级别的虚拟正方形的步骤还包括容纳编码的正方形具有局部标识符m和具有局部标识符4m、4m+1、4m+2和4m+3的四个四分之一大小的容纳编码的正方形。8.按照权利要求1所述的方法,其中建立范围查询索引的步骤还包括建立范围查询索引,使得范围查询索引适应在所述至少一个范围查询的监视区域之外的查询位置方面的一个或多个变化。9.按照权利要求1所述的方法,还包括利用数据值搜索范围查询索引的步骤。10.按照权利要求9所述的方法,其中利用数据值搜索范围查询索引的步骤还包括下述步骤找出包含数据值的最小尺寸的虚拟正方形;找出包含最小尺寸的虚拟正方形的其它虚拟正方形;和获得与覆盖所述数据值的虚拟正方形相关的查询标识符。11.按照权利要求10所述的方法,其中找出其它虚拟正方形的步骤还包括下述步骤找出最小尺寸的容纳编码的正方形的分区标识符和局部标识符;和重复把局部标识符除以4,以找出包含最小尺寸的容纳编码的正方形的其它容纳编码的正方形的局部标识符。12.一种评估一个或多个移动目标的一个或多个连续范围查询的方法,包括下述步骤利用与所述一个或多个移动目标的一个或多个连续范围查询相关的一个或多个容纳编码的虚拟结构,保持查询索引;和利用所述查询索引增量地评估所述一个或多个连续范围查询。13.按照权利要求12所述的方法,其中增量地评估一个或多个连续范围查询的步骤还包括识别覆盖由一个或多个连续范围查询的评估获得的一个或多个目标的在先位置的最大容纳编码的正方形;识别覆盖所述一个或多个目标的当前位置的最大容纳编码的正方形;根据一个或多个目标的过去位置和当前位置,避免进行关于在相同的容纳编码的正方形边界内的目标位置的一个或多个计算。14.一种在处理数据流中使用的设备,包括存储器;和与所述存储器耦接的至少一个处理器,所述处理器用于(i)获得将与数据流相关的至少一个范围查询;和(ii)利用一个...

【专利技术属性】
技术研发人员:陈世魁吴坤龙俞士纶
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1