当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于维组-时空-概率过滤的分布式查询系统及方法技术方案

技术编号:26304029 阅读:38 留言:0更新日期:2020-11-10 19:59
本发明专利技术提供一种基于维组‑时空‑概率过滤的分布式查询系统及方法,涉及大数据查询技术领域。首先通过查询优化器对初始查询任务队列进行优化,得到重写查询任务队列;并通过维组过滤器对其属性进行维组过滤,得到查询目标维组候选集合;通过时空过滤器对查询目标维组候选集合进一步筛选,得到查询候选数据集合;概率过滤器对以上两个集合启动分布式采样计算和查询过程,并对样本进行查询计算和置信度计算,汇总得到全局查询结果和总置信度,并写到结果缓存器进行缓存。最后查询优化器并从结果缓存器读取已完成的重写查询任务结果缓存,计算返回初始查询任务的查询结果,实现对多查询任务的优化,减少查询计算代价并提升了查询效率。

【技术实现步骤摘要】
一种基于维组-时空-概率过滤的分布式查询系统及方法
本专利技术涉及大数据查询
,尤其涉及一种基于维组-时空-概率过滤的分布式查询系统及方法。
技术介绍
大数据时代背景下,分布式数据存储、查询以及分析技术已得到广泛应用。分布式查询涉及多存储节点和多模态数据。不同于传统的单节点查询优化,分布式查询在大数据环境下,主要通过对分布式系统查询任务进行优化调度,降低网络传输和计算代价,提高查询结果的准确率,提升查询效率,进而实现高效的分布式查询与优化。高效的分布式查询与优化是大数据管理的核心,更是大数据智能化分析的重要支撑。大数据分布式查询优化的主要途径是缩小查询候选集合,避免冗余的数据读取和计算,实现高效的中间查询过程。因此采用有效的查询候选集合过滤方法是优化的重点。近年来业界涌现出大量针对于大数据环境下的复杂查询算法,但是算法比较单一,主要是针对聚合查询、偏好查询和分析查询等特定查询的优化算法,同时进行多个查询时效率仍然不高,目前还缺少高效的分布式查询优化方法,优化多任务的大数据的中间查询过程,实现高效率数据管理的目标。专本文档来自技高网...

【技术保护点】
1.一种基于维组-时空-概率过滤的分布式查询系统,其特征在于:包括查询优化器、维组过滤器、时空过滤器、概率过滤器和结果缓存器;/n所述查询优化器通过分析初始查询任务队列中多个查询任务的内在关联性对查询任务进行优化,得到重写查询任务队列;并从结果缓存器读取已完成的重写查询任务结果缓存,根据保存的优化前后的查询任务关系映射计算返回初始查询任务的查询结果;/n所述维组过滤器基于元数据高维属性表的分组存储信息,对重写查询任务的属性进行维组过滤,得到查询目标维组候选集合;/n所述时空过滤器针对重写查询任务所对应的时空属性,对查询目标维组候选集合进行进一步筛选,得到查询候选数据集合;/n所述概率过滤器根据...

【技术特征摘要】
1.一种基于维组-时空-概率过滤的分布式查询系统,其特征在于:包括查询优化器、维组过滤器、时空过滤器、概率过滤器和结果缓存器;
所述查询优化器通过分析初始查询任务队列中多个查询任务的内在关联性对查询任务进行优化,得到重写查询任务队列;并从结果缓存器读取已完成的重写查询任务结果缓存,根据保存的优化前后的查询任务关系映射计算返回初始查询任务的查询结果;
所述维组过滤器基于元数据高维属性表的分组存储信息,对重写查询任务的属性进行维组过滤,得到查询目标维组候选集合;
所述时空过滤器针对重写查询任务所对应的时空属性,对查询目标维组候选集合进行进一步筛选,得到查询候选数据集合;
所述概率过滤器根据得到的目标维组候选集合和查询候选数据集合,启动分布式采样计算和查询过程,在分布式平台各数据节点并行地进行目标数据的样本采集,对样本进行查询计算和置信度计算,汇总得到全局查询结果和总置信度,并写到结果缓存器进行缓存。


2.根据权利要求1所述的一种基于维组-时空-概率过滤的分布式查询系统,其特征在于:
所述元数据高维属性表依照以下策略在分布式平台存储元数据:依据不同属性的内在相关性,将查询任务的属性表垂直划分为多个维组,每个维组包含多个属性;再对属性表进行横向划分,划分的每一部分包含多行元数据信息,并存储在分布式平台不同的数据节点;对于同一数据节点中的数据,按照维组划分,每个维组以数据块的形式存储,各数据节点存储局部索引,分布式平台的主控管理节点存储全局索引,自底向上构建全局-局部分层索引,索引中包含数据的时空信息。


3.一种基于维组-时空-概率过滤的分布式查询方法,基于权利要求1所述分布式查询系统实现,其特征在于:具体包括以下步骤:
步骤1:通过查询优化器对初始查询任务队列中的查询任务进行关联分析,优化得到重写查询任务队列;
步骤2:针对优化得到的重写查询任务队列,通过维组过滤器对查询任务的目标属性进行维组过滤,得到查询目标维组候选集合;
步骤3:在元数据全局索引的基础上,根据查询任务目标的时空属性范围,通过时空过滤器对查询目标维组候选集合进行过滤得到查询数据候选集合;
步骤4:针对分布式平台中各数据节点开始执行分布式查询任务,通过概率过滤器对各数据节点中的目标数据进行抽取样本,然后计算局部查询结果,最后对局部查询结果进行汇总,得到优化的重写查询任务的查询结果,并写入结果缓存器;
步骤5:查询优化器读取结果缓存器中缓存的优化的重写查询任务的查询结果,进行重构处理后得到初始查询任务的查询结果。

【专利技术属性】
技术研发人员:王之琼信俊昌雷盛楠王司亓李嘉欣汪宇唐俊日隋玲
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1