一种文件处理方法和装置制造方法及图纸

技术编号:16079912 阅读:50 留言:0更新日期:2017-08-25 15:27
本发明专利技术实施例公开了一种文件处理方法,包括:获取至少两个文件;在获取的文件满足文件合并条件时,将满足文件合并条件的各个文件进行合并,得出合并文件;将合并文件以BloomMapFile形式进行存储。本发明专利技术实施例还公开了一种文件处理装置。

【技术实现步骤摘要】
一种文件处理方法和装置
本专利技术涉及数据业务技术,尤其涉及一种文件处理方法和装置。
技术介绍
随着互联网技术的高速发展以及数字化信息的不断增加,信息的存储问题已经成为当下最为关注的焦点之一;目前对于这类文件数据的存储主要是通过部署分布式文件系统来进行管理,国内外有多款分布式文件系统,例如GoogleFileSystem(GFS)、HadoopDistributedFileSystem(HDFS)、Lustre、FastDistributedFileSystem(FDFS)等。其中,HDFS是Hadoop中最为重要的组件之一,HDFS作为分布式文件系统,其发展速度和应用领域越发受到关注。文件存储于HDFS必然会产生相应的元数据,现有技术方案均是将元数据存储于Namenode节点,当需要访问储存的文件时Namenode需读取所有的元数据并选出访问文件的元数据信息,从而访问相应文件。如此,访问储存的文件时,Namenode需读取所有的元数据并选出访问文件的元数据信息,Namenode节点的内存访问压力大,判断小文件是否存在时需扫描Namenode节点的所有元数据,耗时较长,文件读取效率不本文档来自技高网...
一种文件处理方法和装置

【技术保护点】
一种文件处理方法,其特征在于,所述方法包括:获取至少两个文件;将满足文件合并条件的各个文件进行合并,得出合并文件;将合并文件以BloomMapFile形式进行存储。

【技术特征摘要】
1.一种文件处理方法,其特征在于,所述方法包括:获取至少两个文件;将满足文件合并条件的各个文件进行合并,得出合并文件;将合并文件以BloomMapFile形式进行存储。2.根据权利要求1所述的方法,其特征在于,所述将满足文件合并条件的各个文件进行合并,得出合并文件,包括:对获取的各个文件进行分类;在每个类别的文件中,将容量小于容量阈值的文件标记为对应类别的待合并文件;任意一个类别的各个待合并文件的容量之和达到容量阈值时,利用BloomFilter将对应类别的各个待合并文件合并,得出合并文件。3.根据权利要求2所述的方法,其特征在于,所述利用BloomFilter实现各个待合并文件的合并,包括:启动MapReduce任务将对应类别的各个待合并文件合并。4.根据权利要求2或3所述的方法,其特征在于,在将合并文件以BloomMapFile形式进行存储之后,所述方法还包括:接收文件读取请求;确定所述文件读取请求对应的文件存在时,基于所述文件读取请求读取文件。5.根据权利要求4所述的方法,其特征在于,确定所述文件读取请求对应的文件不存在时,所述方法还包括:返回读取文件不存在的指示信息。6.根据权利要求4所述的方法,其特征在于,所述利用BloomFilter将对应类别的各个待合并文件合并,得出合并文件,还包括:获取每个待合并文件的位数组;建立一级索引(key,value),其中,key表示每个待合并文件的位数组,value表示每个待合并文件的内容;在利用BloomFilter将对应类别的各个待合并文件合并,得出合并文件之后,所述方法还包括:建立二级索引(new_key,(key,value)),new_key表示对应类别的合并文件的位数组,对应类别的合并文件为对应类别的各个待合并文件合并后形成的文件;在接收文件读取请求之后,所述方法还包括:获取文件读取请求对应的位数组信息,在一级索引中存在匹配所获取的位数组信息的key值时,确定所述文件读取请求对应的文件存在;所述基于所述文件读取请求读取文件,包括:在二级索引中,查找出所获取的位数组信息对应的new_key值,基于查找出的new_key值,读取出对应的合并文件;基于文件读取请求,从读取出的合并文件中,读取对应的文件。7.根据权利要求6所述方法,其特征在于,所述获取每个待合...

【专利技术属性】
技术研发人员:张琳陈保符刘婕
申请(专利权)人:中国移动通信集团河北有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1