The application discloses a log file compression and decompression method, an electronic device and a computer readable storage medium. The log file compression method can compress multiple subfiles line by line by cutting the uncompressed log files into subfiles. The compression efficiency and compression ratio are improved. The compression subfile corresponds to the number of lines before compression, and the subsequent decompression efficiency is improved. The log decompression method uncompresses multiple sub compressed files by line by line, and calculates statistical log data in parallel according to the computing task at the same time, and greatly improves the efficiency of compression and calculation.
【技术实现步骤摘要】
日志文件压缩及解压缩方法、电子设备和可读存储介质
本申请涉及信息处理
,具体地,涉及一种日志文件压缩及解压缩方法、电子设备和计算机可读存储介质。
技术介绍
随着大数据时代的来临,数据也能像能源、材料一样称为战略性资源。利用数据资源深挖创新,提升效益,是诸多企业追求的目标。互联网所产生的大数据,主要来自于对互联网的访问日志。因此,存储互联网访问日志的存储成为关键。由于原始日志文件所占用的存储空间过大,为了达到长期保存的目的,必须对原始日志文件进行压缩。现有技术中,存在有各种单进程的文件压缩方法,但是由于日志文件体积巨大,依靠单进程的文件压缩方法存在压缩及解压缩效率较低的问题。
技术实现思路
有鉴于此,本申请公开了一种日志文件压缩及解压缩方法、电子设备和计算机可读存储介质,以提高日志文件压缩及解压缩的效率、压缩比和计算效率。第一方面,提供一种日志文件压缩方法,包括:将待压缩的日志文件切分为子文件,所述日志文件的每一行数据记录一个操作,所述子文件包括多个所述行;将每个子文件分别作为一个压缩任务送入压缩任务池;并行地执行所述压缩任务池中的多个压缩任务;在所述压缩任务池中 ...
【技术保护点】
一种日志文件压缩方法,包括:将待压缩的日志文件切分为子文件,所述日志文件的每一行数据记录一个操作,所述子文件包括多个所述行;将每个子文件分别作为一个压缩任务送入压缩任务池;并行地执行所述压缩任务池中的多个压缩任务;在所述压缩任务池中的所有压缩任务均完成后,将不同压缩任务获得的压缩子文件合并成压缩结果文件;其中,逐行压缩所述压缩任务对应的子文件以获取所述压缩子文件;所述压缩子文件的行数与所述子文件的行数一一对应。
【技术特征摘要】
1.一种日志文件压缩方法,包括:将待压缩的日志文件切分为子文件,所述日志文件的每一行数据记录一个操作,所述子文件包括多个所述行;将每个子文件分别作为一个压缩任务送入压缩任务池;并行地执行所述压缩任务池中的多个压缩任务;在所述压缩任务池中的所有压缩任务均完成后,将不同压缩任务获得的压缩子文件合并成压缩结果文件;其中,逐行压缩所述压缩任务对应的子文件以获取所述压缩子文件;所述压缩子文件的行数与所述子文件的行数一一对应。2.根据权利要求1所述的日志文件压缩方法,其特征在于,逐行压缩所述压缩任务对应的子文件以获取所述压缩子文件包括:读取所述子文件的第一行数据,将所述第一行数据中的时间戳字段的位置信息存储在元信息中;逐行读取所述子文件之后的各行数据,将读取的当前行中的时间戳修改为与前一行数据中的时间戳的偏移量,并根据预定的压缩算法压缩修改后的当前行;在所述子文件的所有行压缩完成时输出所述压缩子文件并存储。3.根据权利要求1所述的日志文件压缩方法,其特征在于,所述日志文件根据分布式文件系统的存储形式进行切分;所述压缩结果文件根据分布式文件系统的存储形式进行存储。4.根据权利要求3所述的日志文件压缩方法,其特征在于,所述子文件的数量是根据所述待压缩的日志文件的大小和所述分布式文件系统的存储单元的大小计算的。5.一种日志文件解压缩方法,包括:将待解压的日志文件的所有子压缩文件作为解压缩任务送入解压缩任务池;并行地执行所述解压缩任务池中的多个解压缩任务,并根据计算任务统计计...
【专利技术属性】
技术研发人员:王雪峰,
申请(专利权)人:北京希嘉创智教育科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。