当前位置: 首页 > 专利查询>广西大学专利>正文

一种数据流相似性的连接方法技术

技术编号:14265435 阅读:178 留言:0更新日期:2016-12-23 10:38
本发明专利技术涉及一种数据流相似性的连接方法,通过根据预设时间跨度值P在数据流R上构建B+树森林集合索引;当所述数据流R和所述数据流S上的数据元组的时间戳在当前滑动窗口的时间范围内时,基于所述B+树森林集合索引,进行滑动窗口语义下基于EMD距离的所述数据流R和所述数据流S之间的相似性连接,能够基于B+树森林集合索引设计数据流上基于滑动窗口语义和EMD距离的相似性连接方法,为滑动窗口语义下基于EMD距离的数据流相似性连接查询提出了解决方案,显著提高了相似性连接的处理效率和性能。

【技术实现步骤摘要】

本专利技术涉及数据管理
,尤其涉及一种数据流相似性的连接方法
技术介绍
Melody-Join策略为基于地球移动距离(英文:Earth Mover’s Distance,简称EMD)距离的相似性查询设计了高效的索引构建策略。先通过特征向量将高维数据元组映射到为一维直方图,然后对映射得到的一维的直方图构建累积分布函数(CDF),再通过近似估计把CDF转化为正态分布,之后把得到的正态分布通过霍夫变换转化得到二维空间的数据点。以上过程将高维数据元组转换为二维空间的数据点。Melody-Join之后便可在二维空间上构建网格索引并推导出各个网格中的数据元组和查询对象之间的EMD距离的下界值,基于该下界值过滤无关数据元组。此外,TBI策略(Tree-Based Indexing策略)也为基于EMD距离的相似性查询设计了高效的索引结构。基于EMD距离对偶线性规划问题的一组可行解可以将高维数据元组映射为一维实数值,然后基于该一维映射空间构建一个B+树索引。给定L组可行解因此可以同时构建L棵B+树索引,构成一个B+树森林。已证明和查询对象q之间EMD距离接近的数据元组在B+树索引上的键值必然落于一个键值区间(参见本文公式(1))。因此基于该键值区间对每棵B+树进行范围查询都可得到该q的一个查询候选集,多棵B+树索引返回的查询候选集的并集即是q的约简的查询候选集。之后再基于一系列EMD距离的上界或下界函数对该查询候选集中的数据对象进行过滤,之后便可得到查询对象q最终的相似性查询的查询结果。Melody-Join方案在将高维数据元组转换为二维空间中数据点的过程中需要多次映射和变换,需要基于采样数据进行聚类等复杂操作才能得到较好的映射所用的向量,因此该转化过程给系统带来了不可小视的开销。数据流上数据快速到达,数据分布多变,不可能基于一部分数据聚类便可得到适用于所有数据的较好的映射向量,因而Melody-Join方案不适用于应用于为数据流上的数据构建索引。TBI方案不是针对于动态的数据流环境而是相对静态的数据库环境所构建的,因此在建立索引时给数据库中的所有数据统一构建了一个大的B+树森林索引。这种方案不适用于数据流环境,因为:首先,数据流上的数据是源源不断到达系统的,不可能在系统中构建一个大索引组织所有的数据,因此要定期根据滑动窗口的语义删除掉一些过期的数据索引,然而如果频繁的在大索引结构上进行过期数据的删除,会带来巨大的索引维护开销(例如要频繁调整B+树的平衡性),降低系统的处理效率,因此亟待需要设计针对数据流环境下的轻量级的索引;其次,数据流上的数据可能存在乱序到达系统的现象,需要在设计轻量级索引结构的同时慎重考虑过期数据的删除策略,确保未来查询结果的正确性和完整性。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
技术问题有鉴于此,本专利技术要解决的技术问题是,如何提供一种高效的数据流相似性的连接方法。解决方案为解决以上技术问题,本专利技术在第一方面提供一种数据流相似性的连接方法,包括:根据预设时间跨度值P在数据流R上构建B+树森林集合索引;当所述数据流R和所述数据流S上的数据元组的时间戳在当前滑动窗口的时间范围内时,基于所述B+树森林集合索引,进行滑动窗口语义下基于EMD距离的所述数据流R和所述数据流S之间的相似性连接。在一种可能的实现方式中,所述根据预设时间跨度值P在数据流R上构建B+树森林集合索引包括:根据预设时间跨度值P把时间域划分为T个互相不重叠的时间区间,T大于等于1;为所述R数据流上每个所述时间区间内达到的所述数据元组构建一个R数据流B+树森林索引,得到所述R数据流所述时间域上T个B+树森林索引,所述T个B+树森林索引构成所述R数据流的B+树森林集合索引。在一种可能的实现方式中,在根据预设时间跨度值P在数据流R上构建B+树森林集合索引之后,还包括:当所述B+树森林集合索引中所包含的数据元组的个数大于等于c*P的值且Factive.maxTime-Factive.minTime>=P时,新建一个B+树森林索引Fnew,并将所述B+树森林索引Fnew设定为当前的活跃索引Factive;其中,Factive.maxTime为当前活跃索引所维护的数据元组的最大时间戳,Factive.minTime为当前活跃索引所维护的数据元组的最小时间戳,c为预设的B+树森林索引的容量系数。在一种可能的实现方式中,在基于所述数据流R上的B+树森林集合索引,进行滑动窗口语义下基于EMD距离的所述数据流R和所述数据流S之间的相似性连接之前,还包括:当接收到所述数据流S上的数据元组s之后,计算所述B+树森林集合索引中的每个所述时间区间上构建的B+树森林索引Fi中数据元组的最小时间戳和所述元祖s的时间戳之间的差值;当所述差值大于所述滑动窗口大小和最大网络延迟D之和时,则可安全删除所述B+树森林索引Fi,因为由于滑动窗口的限制Fi中的数据元组不会和未来S上新到达的数据元组进行比较连接。在一种可能的实现方式中,还包括:设置所述预设时间跨度值其中,|W|为所述滑动窗口大小。在一种可能的实现方式中,所述基于所述B+树森林集合索引,进行滑动窗口语义下基于EMD距离的所述数据流R和所述数据流S之间的相似性连接,包括:基于所述数据流S中的数据元组si的时间戳,从B+树森林集合F中找到时间跨度区间和所述数据元组si要查询的时间滑动窗口有交集的所述B+树森林集合F’;当所述B+树森林集合F中的B+树森林Fj∈F’满足si.timestamp-Fj.maxTime≤|W|时,返回Fj中和si间的EMD距离不大于θ的且时间戳落在si的滑动窗口范围内的所述R数据流上的数据元组R’{rj本文档来自技高网
...
一种数据流相似性的连接方法

【技术保护点】
一种数据流相似性的连接方法,其特征在于,包括:根据预设时间跨度值P在数据流R上构建B+树森林集合索引;当所述数据流R和数据流S上的数据元组的时间戳在当前滑动窗口的时间范围内时,基于所述B+树森林集合索引,进行滑动窗口语义下基于地球移动距离EMD距离的所述数据流R和所述数据流S之间的相似性连接。

【技术特征摘要】
1.一种数据流相似性的连接方法,其特征在于,包括:根据预设时间跨度值P在数据流R上构建B+树森林集合索引;当所述数据流R和数据流S上的数据元组的时间戳在当前滑动窗口的时间范围内时,基于所述B+树森林集合索引,进行滑动窗口语义下基于地球移动距离EMD距离的所述数据流R和所述数据流S之间的相似性连接。2.根据权利要求1所述的数据流相似性的连接方法,其特征在于,所述根据预设时间跨度值P在数据流R上构建B+树森林集合索引包括:根据预设时间跨度值P把时间域划分为T个互相不重叠的时间区间,T大于等于1;为所述R数据流上每个所述时间区间内达到的所述数据元组构建一个R数据流B+树森林索引,得到所述R数据流所述时间域上T个B+树森林索引,所述T个B+树森林索引构成所述R数据流的B+树森林集合索引。3.根据权利要求2所述的数据流相似性的连接方法,其特征在于,在根据预设时间跨度值P在数据流R上构建B+树森林集合索引之后,还包括:当所述B+树森林集合索引中所包含的数据元组的个数大于等于c*P的值且Factive.maxTime-Factive.minTime>=P时,新建一个B+树森林索引Fnew,并将所述B+树森林索引Fnew设定为当前的活跃索引Factive;其中,Factive.maxTime为当前活跃索引所维护的数据元组的最大时间戳,Factive.minTi...

【专利技术属性】
技术研发人员:许嘉宋超吕品李陶深张佳振
申请(专利权)人:广西大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1