一种基于Hadoop中小文件优化和倒排索引的方法技术

技术编号：9827146 阅读：397 留言：2更新日期：2014-04-01 16:30

本发明专利技术公开了一种基于Hadoop中小文件优化和倒排索引的方法，能够向HDFS分布式文件系统上传海量小文件和对HDFS分布式文件系统上的文件建立倒排索引，所述方法包括小文件优化和建立倒排索引过程；主要包括以下步骤：（1）用户向Hadoop上传大量相对于HDFS块大小的小文件到小文件队列；（2）定时计算文件队列中小文件的大小；（3）使用Sequencefile序列文件方法将达到要求的小文件队列中的文件进行合并后上传到HDFS；（4）对HDFS上的文件建立倒排索引。该方法针对Hadoop处理小文件方便的不足提出优化方案，能够优化小文件的处理性能，释放内存，提高检索的速度和效率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了，能够向HDFS分布式文件系统上传海量小文件和对HDFS分布式文件系统上的文件建立倒排索引，所述方法包括小文件优化和建立倒排索引过程；主要包括以下步骤：（1）用户向Hadoop上传大量相对于HDFS块大小的小文件到小文件队列；（2）定时计算文件队列中小文件的大小；（3）使用Sequencefile序列文件方法将达到要求的小文件队列中的文件进行合并后上传到HDFS；（4）对HDFS上的文件建立倒排索引。该方法针对Hadoop处理小文件方便的不足提出优化方案，能够优化小文件的处理性能，释放内存，提高检索的速度和效率。【专利说明】—种基于Hadoop中小文件优化和倒排索引的方法
本专利技术涉及系统处理领域，尤其是涉及。
技术介绍
当文件的大小小于HDFS (分布式文件系统)上块的大小时,这样的文件在Hadoop称为小文件。大量的小文件会严重影响Hadoop的扩展性和性能。(I)在HDFS分布式文件系统中，任何文件信息、文件块信息在NameNode (主节点)的内存中都以一个对象的形式存储，每一个对象约占150字节，大量小文件使NameNode的内存使用情况严重制约了集群的扩展。(2)HDFS访问大量小文件速度远远小于访问同等大小的大文件。它主要是为了流式的访问大文件而设计的。对小文件的读取通常会造成大量从Datanode到Datanode的获取文件，这样是非常的低效的一种访问方式。(3) MapReduce (并行数据处理)处理批量小文件时间远远长于处理同等大小的大文件的时间。处理每一个小文件要占用一个task (任务),若小...

【技术保护点】
一种基于Hadoop中小文件优化和倒排索引的方法，所述方法能够向分布式文件系统上传海量小文件和对分布式文件系统上的文件建立倒排索引，其特征在于，所述方法包括小文件优化和建立倒排索引过程；其中：1）小文件优化的步骤包括：1.1）首先用户上传文件到云存储平台，系统判断该文件是否属于小文件，如果是，就将该文件交给小文件处理模块处理，进行步骤1.2）；如果不是，则直接进行步骤1.3），将该文件存入分布式文件系统；1.2）把步骤1.1）传过来的小文件存储到小文件队列中去，在所述小文件处理模块中开启定时任务，采用判断模块间隔计算所述小文件队列中文件的总大小；1.3）把所述小文件队列中的全部小文件一次性的交给文件合并模块，通过序列文件以文件名作键，相应的文件内容为值，将这些小文件一次性写入分布式文件系统，同时删除已处理过的文件；2）建立倒排索引过程的步骤包括：2.1）建立倒排索引的映射过程映射过程把输入的文本文档按照文档标识号分成M片段，处理成组合形式为J〈文档号，文本内容〉的键值对，然后把键值对分发到多个处理节点上，所述处理节点把J〈文档号，文本内容〉作为一个映射过程的输入，分别对每一个文档号对应...

【技术特征摘要】

【专利技术属性】
技术研发人员：吴含前，姚莉，马风新，李露，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人