【技术实现步骤摘要】
一种高效的日志压缩和索引方法
本专利技术涉及一种高效的日志压缩和索引方法,具体涉及一种分布式、高压缩率和快速索引的方法。
技术介绍
随着互联网数据的大爆发,现网环境中单节点的Radius和DNS服务器等日志生成量达到了日均100GB,这极大的提高了存储成本。当前日志存储只是简单的落盘备份,运用这些数据是极其的困难,而且由于数据简单扁平,通过简单的方式备份会占用更多存储空间。所以对于这些数据,急需一个能够减少存储空间,提供快速检索功能系统进行处理,并保障数据安全的方法。通用的压缩工具或者算法都是适用于普通的文本文件或者文本流,不能深入的理解数据的含义。所以使用通用压缩工具来压缩日志数据既不能达到较高压缩比,又不能提供快速的检索功能。
技术实现思路
有鉴于此,本专利技术提供了一种高效的日志压缩和索引方法,对日志的特点,进行预处理和可逆变换,使之成为更适合压缩的格式,综合运用各种压缩算法,达到最大压缩率的要求,且压缩后的数据便于查询,保证数据完整性、正确性。本专利技术通过以下技术手段解决上述技术问题:本专利技术的一种高效的日志压缩和索引方法,其包括以下步骤:1)日志数据特点 ...
【技术保护点】
1.一种高效的日志压缩和索引方法,其特征在于,包括以下步骤:1)日志数据特点分析,采用日志数据特点解析模块对日志自身的特点进行解析,包括对日志结构、日志字段数据类型、单字段重复及相似程度和字段间的关系约束等特点进行解析,输出解析结果;2)日志预处理,采用日志预处理模块根据日志分析模块输出的特点,对原始日志数据进行处理,处理内容包括排序、分列、分块及聚合,将数据各字段处理成重复或者相似度高的格式,使数据既能易于压缩,又不会增加检索查询的消耗,然后输出处理好的分块数据;3)压缩算法组合,采用压缩算法组合模块对日志数据进行初次压缩,通过机器学习的方式选择、排列出最优的编码和压缩算 ...
【技术特征摘要】
1.一种高效的日志压缩和索引方法,其特征在于,包括以下步骤:1)日志数据特点分析,采用日志数据特点解析模块对日志自身的特点进行解析,包括对日志结构、日志字段数据类型、单字段重复及相似程度和字段间的关系约束等特点进行解析,输出解析结果;2)日志预处理,采用日志预处理模块根据日志分析模块输出的特点,对原始日志数据进行处理,处理内容包括排序、分列、分块及聚合,将数据各字段处理成重复或者相似度高的格式,使数据既能易于压缩,又不会增加检索查询的消耗,然后输出处理好的分块数据;3)压缩算法组合,采用压缩算法组合模块对日志数据进行初次压缩,通过机器学习的方式选择、排列出...
【专利技术属性】
技术研发人员:孙清孟,
申请(专利权)人:恒为科技上海股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。