一种分布式数据库的查询优化方法技术

技术编号:20160373 阅读:36 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种分布式数据库的查询优化方法,在遍历所有海量文件之前先校验该文件对应的索引文件,以此判断对应的原始海量文件中是否包含所要查询的目标,从而避免了很多不必要的搜索海量文件操作,大幅度提升检索性能。

【技术实现步骤摘要】
一种分布式数据库的查询优化方法
本专利技术涉及一种计算机集群的数据处理及应用方法,尤其涉及一种分布式数据库的查询优化方法。
技术介绍
Hadoop生态系统包括HDFS、分布式编程模型MapReduce、HBase、Hive等;目前几乎成为大数据处理工具的标准。HDFS是Hadoop生态系统下核心项目之一,基于流数据处理模式和处理大文件的需求开发,对硬件要求低,容错好,可靠性高。Hadoop2.0之前,HDFS集群通常包括一个NameNode和多个DataNode。NameNode管理命名空间,维护整个文件系统的目录树以及文件的索引目录。DataNode用来执行具体的任务,存储和查询获取文件等;它通过心跳定时向NameNode发送所存储的文件块信息。此框架支持下,HDFS可以存储大批海量数据,并按需要获取或遍历系统中所有文件,从而解决大数据的存储问题。Impala是CDH(ClouderaDistributionHadoop)的一个组件,是一个对大量数据并行处理的查询引擎。Impala的每个节点上都运行一个守护进程,用户通过Impala-Shell、JDBC等接口发送查询命令,由Imp本文档来自技高网...

【技术保护点】
1.一种分布式数据库的查询优化方法,其特征在于:在数据存储阶段为每个文件生成一份索引文件,查找遍历原始文件前,提前检查索引文件;即可判断该文件是否包含所要模糊查找的字串,结果包括必然包含、可能包含、必然不包含。

【技术特征摘要】
1.一种分布式数据库的查询优化方法,其特征在于:在数据存储阶段为每个文件生成一份索引文件,查找遍历原始文件前,提前检查索引文件;即可判断该文件是否包含所要模糊查找的字串,结果包括必然包含、可能包含、必然不包含。2.根据权利要求1所述的一种分布式数据库的查询优化方法,其特征在于:所述索引文件的生成包括以下步骤:步骤1:申请内存;步骤2:按行录入原始文件;步骤3:对原始文件每行需索引的字段分词,每三个字符作为一个词,并对此词取第一个字作为词1,取前两个字作为词2,取最后一个字作为词3,取后两个字作为词4,并取该词和它的词3、词4作为下个词的前置词;步骤4:计算每个词的hash值,并做如下操作标记hash值在文件中出现过:MemArry[Hash*LINEBYTE]=MemArry[Hash*LINEBYTE]|0x80;步骤5:检验当前状态是否有前置词;若有前置词,取词1、词2和本词三组hash值做如下操作以标注该前置词的后置词包含此三组hash值:MemArry[preHash*LINEBYTE+(v+1)/8]=MemArry[preHash*LINEBYTE+(v+1)/8]|(0x80>>((v1+1)%8));其中,MemArry为索引内存段,preHash为前置词Hash值,LINEBYTE为单行BYTE大小,v为当前hash值;若没有前置词或上述操作结束后,获取步骤3中下一个词并回到步骤4;步骤6:直到原始文件处理完毕,将内存刷新到磁盘生成索引。...

【专利技术属性】
技术研发人员:鹿林王伟王东
申请(专利权)人:南京中新赛克科技有限责任公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1