【技术实现步骤摘要】
离线小文件处理方法及装置
本专利技术实施例涉及分布式计算
,尤其涉及一种离线小文件处理方法及装置。
技术介绍
对于大数据的离线分析工作,采取将流式数据转换成parquet列式存储格式文件方式,并结合spark-sql等技术手段进行离线分析。其中实时接入的流式数据,会从Kafka上获取并实时转换成parquet文件,采用HDFS文件系统方式进行存储,最后作为离线分析工具的源文件。Hadoop分布式文件系统(Hadoopdistributedfilesystem,HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统,具有高度容错、高吞吐量等特性,非常适合大规模数据集上的应用。但Hadoop的设计之初主要是面向流式处理的,对于处理大量远小于blocksize值的小文件时候,由于设计机制的问题,会出现响应速度大幅下降,严重影响性能,甚至导致无法正常运行的现象。由于数据来自各厂商、分光等实时接入数据,离线分析文件生成系统会对Kafka上的每条日志信息进行实时的文件转换工作,从而形成了大量的小文件供后续产品分析,与此同时,产生的大 ...
【技术保护点】
一种离线小文件处理方法,运行于Hadoop分布式处理系统上,其特征在于,包括:由HDFS中读取列式存储文件,其中,列式存储文件的大小小于预定的文件大小设定值;提供进行数据处理指定的配置;根据所述配置,基于Map‑Reduce计算模型,对所述列式存储文件进行预处理及合并;以及基于Map‑Reduce计算模型,按照指定的归并频率将执行预处理及合并后的所述列式存储文件归并为大文件。
【技术特征摘要】
1.一种离线小文件处理方法,运行于Hadoop分布式处理系统上,其特征在于,包括:由HDFS中读取列式存储文件,其中,列式存储文件的大小小于预定的文件大小设定值;提供进行数据处理指定的配置;根据所述配置,基于Map-Reduce计算模型,对所述列式存储文件进行预处理及合并;以及基于Map-Reduce计算模型,按照指定的归并频率将执行预处理及合并后的所述列式存储文件归并为大文件。2.根据权利要求1所述的方法,其特征在于,还包括:在对所述列式存储文件进行预处理及合并之后,基于Map-Reduce计算模型,对遗弃数据进行定期的压缩及恢复。3.根据权利要求1或2所述的方法,其特征在于,根据所述配置,基于Map-Reduce计算模型,对所述列式存储文件进行预处理及合并,包括:基于Map-Reduce计算模型,对列式存储文件的内容数据进行筛选;基于Map-Reduce计算模型,对列式存储文件的内容数据进行去重;基于Map-Reduce计算模型,对列式存储文件进行合并;以及基于Map-Reduce计算模型,对列式存储文件的存储目录结构进行优化。4.根据权利要求2所述的方法,其特征在于,基于Map-Reduce计算模型,对遗...
【专利技术属性】
技术研发人员:谢永恒,李鑫,火一莽,万月亮,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。