【技术实现步骤摘要】
一种Hadoop日志无损压缩方法和系统
本专利技术涉及通信
,尤其涉及一种Hadoop日志无损压缩方法和系统。
技术介绍
Hadoop作为目前较为流行的分布式计算框架,已被广泛地应用于大数据处理。为了方便用户使用及调试,Hadoop会将其自身的运行状况以日志的形式写入磁盘,主要包括:各类守护进程的运行日志、MapReduce、Spark作业的运行日志等。随着Hadoop集群规模增大及其使用时间的增长,日志的产生量会急剧增加,从而对磁盘存储造成极大的压力。为了追溯系统运行问题,或者作业运行问题,追溯问题原因时只能通过所存储的日志来分析解决,因此日志对于系统和用户问题的分析和定位起着至关重要的作用,同时也能提供审计的依据。为解决Hadoop日志过大的问题,本专利技术对Hadoop的日志结构进行了分析,并根据其特点,设计并实现了一种高效的无损压缩算法,对日志进行压缩以节省存储资源,同时保证解压缩过程的高速性。
技术实现思路
本专利技术的实施例提供了一种Hadoop日志无损压缩方法和系统,本专利技术提供了如下方案:将日志文件中的日志信息逐行进行解析切分,获取日志字段;其 ...
【技术保护点】
1.一种Hadoop日志无损压缩方法,其特征在于,包括:将日志文件中的日志信息逐行进行解析切分,获取日志字段;其中,不同的日志字段标识不同的类别;判断所述日志字段是否在其对应类别的字典中,若判断结果为否,则为所述日志字段分配其在所述字典中对应的表项序号,并存入其对应类别的字典;逐行提取字典中记录的所述日志字段的表项序号进行编码并写入缓存中的压缩内容。
【技术特征摘要】
1.一种Hadoop日志无损压缩方法,其特征在于,包括:将日志文件中的日志信息逐行进行解析切分,获取日志字段;其中,不同的日志字段标识不同的类别;判断所述日志字段是否在其对应类别的字典中,若判断结果为否,则为所述日志字段分配其在所述字典中对应的表项序号,并存入其对应类别的字典;逐行提取字典中记录的所述日志字段的表项序号进行编码并写入缓存中的压缩内容。2.根据权利要求1所述的一种Hadoop日志无损压缩方法,其特征在于,包括:预先将日志文件按行读取到内存中,判断每一行中的数据是否为日志信息;若是,则对所述日志信息进行解析切分,获取日志字段;若不是,则直接写入缓存。3.根据权利要求2所述的一种Hadoop日志无损压缩方法,其特征在于,所述逐行提取字典中记录的所述日志字段的序号进行编码并写入缓存中的压缩内容,包括:当对最后一行进行编码时,将字典写入文件头部,然后再写入缓存中的压缩内容。4.根据权利要求3所述的一种Hadoop日志无损压缩方法,其特征在于,包括:根据所述日志字段的表项序号对所述压缩内容进行解码。5.一种Hadoop日志无损压缩系统,其特征在于,包括:获取模块:其用于将日志文件中的日志信息逐行进行解析切分,获取日志字段;其中,不同的日志字段标识不同的类别;判断模块:其用于判断所述日志字段是否在其对应类别的字典中,若判...
【专利技术属性】
技术研发人员:王杰斌,林文辉,
申请(专利权)人:航天信息股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。