一种基于动态索引结构的海量数据实时查询方法技术

技术编号：9865890 阅读：150 留言：0更新日期：2014-04-03 01:17

本发明专利技术公开一种基于动态索引结构（DC-Tree）的海量数据实时查询方法，该方法是将海量多维数据集降维，支持高空间效率低查询时间的方法，并支持分布式冗余存储，从而提升了传统分布式机制中数据分配的效率，适应大规模数据的处理；该方法包括：多维数据记录DR通过MasterNode中Z?Curve映射函数fz，生成降维结果集S；MasterNode选定k个哈希函数，通过Bloom?Filter对结果集S进行映射，生成节点集NN；更新数据记录DR，对节点集NN中每个元素实行动态构建；用户User查询MDS结果，通过步骤1、步骤2获得节点集NN，启用并行查询方法；用户User对节点集NN中所有访问节点的结果集进行聚合，得到最终查询结果Rset。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动态索引结构的海量数据实时查询方法
本专利技术涉及计算机大数据查询
，特别涉及一种基于动态索引结构的海量数据实时查询方法。
技术介绍
随着互联网的飞速发展，社交网络、移动应用等日趋火热，我们看到网络信息的数据量在日益增多，大数据作为一种新兴数据概念而被定义，数据作为信息的载体，起着举足轻重的作用。数据的爆炸式增长使得我们进入了大规模数据分析的时代，其特点是计算强度大，并且要求大规模并发存储和处理能力。如何快速地处理海量数据，及时有效地从海量数据中提取有价值的信息，是急需解决的技术问题。目前，大规模数据分析有2种主流技术：第一种是20世纪80年代开始，以Teradata、Gamma研究项目为代表的并行数据库逐步发展成熟，它是由一系列操作符组成，前一操作符的输出流是下个操作符的输入流，记录按流水线的方式依次经过这些操作符，具有较高的性能。第2种是以Google为首的基于MapReduce和分布式文件系统GFS组成一种“无共享”的简单函数式编程的并行计算框架，支持其每天亿万次的搜索。Apache的Hadoop是一种MapReduce的开源实现。但这些大规模数据处理技术难以满足实时性要求，更多的是针对离线数据的处理。Hadoop更像是一种ETL工具，两者的关系不是相互竞争而是互为补充。另一方面，由Guttman提出的动态索引结构R-Tree及基于R-Tree的变种，其插入、查询等操作可以同时进行，并且支持多维的模型，在众多空间索引技术中的优势非常明显，但是其针对大规模数据处理时随着树高度的增加，其查询结点重叠度增加，造成查询效率下降较快。而本专利技术...
一种基于动态索引结构的海量数据实时查询方法

【技术保护点】
一种基于动态索引结构的海量数据实时查询方法，其特征在于，所述方法包含如下步骤：步骤1：多维数据记录DR通过MasterNode中Z?Curve映射函数fz，生成降维结果集S；步骤2：MasterNode选定k个哈希函数，通过Bloom?Filter对结果集S进行映射，生成节点集NN；步骤3：更新数据记录DR，对节点集NN中每个元素实行动态构建；步骤4：用户User查询MDS结果，通过步骤1、步骤2获得节点集NN，启用并行查询方法；步骤5：用户User对节点集NN中所有访问节点的结果集进行聚合，得到最终查询结果Rset。

【技术特征摘要】
2013.09.09 CN 201310408184.01.一种基于动态索引结构的海量数据实时查询方法，其特征在于，所述方法包含如下步骤：步骤1：多维数据记录DR通过MasterNode中ZCurve映射函数fz，生成降维结果集S；步骤2：MasterNode选定k个哈希函数，通过BloomFilter对结果集S进行映射，生成节点集NN；步骤3：更新数据记录DR，对节点集NN中每个元素实行动态构建；动态插入：为根节点D申请加锁LOCK；更新目录结点的Measure值；如果DR仅仅包含在D的一个孩子的MDS中，那么令D置为这个目录孩子结点；如果DR包含在多个D的孩子的MDS中，那么找出这些孩子中包含最少数据结点的那个孩子，并将D置为这个目录孩子结点；如果DR不包含在D的任何一个孩子的MDS中，首先拷贝一份D，不妨设为D’，将DR添加到D的每一个孩子结点中，计算添加后的重叠值，选择重叠值最小的那个孩子结点，并将其设为D；将数据记录DR插入到D中，并更新D的Measure值；如果D的容纳空间已经达到最大，则调用分裂函数SPL...

【专利技术属性】
技术研发人员：陈丹伟，庄俊，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人