一种分布式数据库的查询优化方法技术

技术编号：20160373 阅读：36 留言：0更新日期：2019-01-19 00:13

本发明专利技术公开了一种分布式数据库的查询优化方法，在遍历所有海量文件之前先校验该文件对应的索引文件，以此判断对应的原始海量文件中是否包含所要查询的目标，从而避免了很多不必要的搜索海量文件操作，大幅度提升检索性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式数据库的查询优化方法
本专利技术涉及一种计算机集群的数据处理及应用方法，尤其涉及一种分布式数据库的查询优化方法。
技术介绍
Hadoop生态系统包括HDFS、分布式编程模型MapReduce、HBase、Hive等；目前几乎成为大数据处理工具的标准。HDFS是Hadoop生态系统下核心项目之一，基于流数据处理模式和处理大文件的需求开发，对硬件要求低，容错好，可靠性高。Hadoop2.0之前，HDFS集群通常包括一个NameNode和多个DataNode。NameNode管理命名空间，维护整个文件系统的目录树以及文件的索引目录。DataNode用来执行具体的任务，存储和查询获取文件等；它通过心跳定时向NameNode发送所存储的文件块信息。此框架支持下，HDFS可以存储大批海量数据，并按需要获取或遍历系统中所有文件，从而解决大数据的存储问题。Impala是CDH(ClouderaDistributionHadoop)的一个组件，是一个对大量数据并行处理的查询引擎。Impala的每个节点上都运行一个守护进程，用户通过Impala-Shell、JDBC等接口发...

【技术保护点】
1.一种分布式数据库的查询优化方法，其特征在于：在数据存储阶段为每个文件生成一份索引文件，查找遍历原始文件前，提前检查索引文件；即可判断该文件是否包含所要模糊查找的字串，结果包括必然包含、可能包含、必然不包含。

【技术特征摘要】
1.一种分布式数据库的查询优化方法，其特征在于：在数据存储阶段为每个文件生成一份索引文件，查找遍历原始文件前，提前检查索引文件；即可判断该文件是否包含所要模糊查找的字串，结果包括必然包含、可能包含、必然不包含。2.根据权利要求1所述的一种分布式数据库的查询优化方法，其特征在于：所述索引文件的生成包括以下步骤：步骤1：申请内存；步骤2：按行录入原始文件；步骤3：对原始文件每行需索引的字段分词，每三个字符作为一个词，并对此词取第一个字作为词1，取前两个字作为词2，取最后一个字作为词3，取后两个字作为词4，并取该词和它的词3、词4作为下个词的前置词；步骤4：计算每个词的hash值，并做如下操作标记hash值在文件中出现过：MemArry[Hash*LINEBYTE]＝MemArry[Hash*LINEBYTE]|0x80；步骤5：检验当前状态是否有前置词；若有前置词，取词1、词2和本词三组hash值做如下操作以标注该前置词的后置词包含此三组hash值：MemArry[preHash*LINEBYTE+(v+1)/8]＝MemArry[preHash*LINEBYTE+(v+1)/8]|(0x80>>((v1+1)％8))；其中，MemArry为索引内存段，preHash为前置词Hash值，LINEBYTE为单行BYTE大小，v为当前hash值；若没有前置词或上述操作结束后，获取步骤3中下一个词并回到步骤4；步骤6：直到原始文件处理完毕，将内存刷新到磁盘生成索引。...

【专利技术属性】
技术研发人员：鹿林，王伟，王东，
申请(专利权)人：南京中新赛克科技有限责任公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人