【技术实现步骤摘要】
本专利技术涉及数据管理
,尤其涉及一种数据流相似性的连接方法。
技术介绍
Melody-Join策略为基于地球移动距离(英文:Earth Mover’s Distance,简称EMD)距离的相似性查询设计了高效的索引构建策略。先通过特征向量将高维数据元组映射到为一维直方图,然后对映射得到的一维的直方图构建累积分布函数(CDF),再通过近似估计把CDF转化为正态分布,之后把得到的正态分布通过霍夫变换转化得到二维空间的数据点。以上过程将高维数据元组转换为二维空间的数据点。Melody-Join之后便可在二维空间上构建网格索引并推导出各个网格中的数据元组和查询对象之间的EMD距离的下界值,基于该下界值过滤无关数据元组。此外,TBI策略(Tree-Based Indexing策略)也为基于EMD距离的相似性查询设计了高效的索引结构。基于EMD距离对偶线性规划问题的一组可行解可以将高维数据元组映射为一维实数值,然后基于该一维映射空间构建一个B+树索引。给定L组可行解因此可以同时构建L棵B+树索引,构成一个B+树森林。已证明和查询对象q之间EMD距离接近的数据元组在B+树索引上的键值必然落于一个键值区间(参见本文公式(1))。因此基于该键值区间对每棵B+树进行范围查询都可得到该q的一个查询候选集,多棵B+树索引返回的查询候选集的并集即是q的约简的查询候选集。之后再基于一系列EMD距离的上界或下界函数对该查询候选集中的数据对象进行过滤,之后便可得到查询对象q最终的相似性查询的查询结果。Melody-Join方案在将高维数据元组转换为二维空间中数据点的过程中需要多 ...
【技术保护点】
一种数据流相似性的连接方法,其特征在于,包括:根据预设时间跨度值P在数据流R上构建B+树森林集合索引;当所述数据流R和数据流S上的数据元组的时间戳在当前滑动窗口的时间范围内时,基于所述B+树森林集合索引,进行滑动窗口语义下基于地球移动距离EMD距离的所述数据流R和所述数据流S之间的相似性连接。
【技术特征摘要】
1.一种数据流相似性的连接方法,其特征在于,包括:根据预设时间跨度值P在数据流R上构建B+树森林集合索引;当所述数据流R和数据流S上的数据元组的时间戳在当前滑动窗口的时间范围内时,基于所述B+树森林集合索引,进行滑动窗口语义下基于地球移动距离EMD距离的所述数据流R和所述数据流S之间的相似性连接。2.根据权利要求1所述的数据流相似性的连接方法,其特征在于,所述根据预设时间跨度值P在数据流R上构建B+树森林集合索引包括:根据预设时间跨度值P把时间域划分为T个互相不重叠的时间区间,T大于等于1;为所述R数据流上每个所述时间区间内达到的所述数据元组构建一个R数据流B+树森林索引,得到所述R数据流所述时间域上T个B+树森林索引,所述T个B+树森林索引构成所述R数据流的B+树森林集合索引。3.根据权利要求2所述的数据流相似性的连接方法,其特征在于,在根据预设时间跨度值P在数据流R上构建B+树森林集合索引之后,还包括:当所述B+树森林集合索引中所包含的数据元组的个数大于等于c*P的值且Factive.maxTime-Factive.minTime>=P时,新建一个B+树森林索引Fnew,并将所述B+树森林索引Fnew设定为当前的活跃索引Factive;其中,Factive.maxTime为当前活跃索引所维护的数据元组的最大时间戳,Factive.minTi...
【专利技术属性】
技术研发人员:许嘉,宋超,吕品,李陶深,张佳振,
申请(专利权)人:广西大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。