对数据日志文件进行有损压缩的方法和系统技术方案

技术编号：38874073 阅读：11 留言：0更新日期：2023-09-22 14:08

公开了用于数据日志文件压缩的方法和设备。所述方法包括：利用至少两个级别的层次聚类对多个数据日志文件中的多行中的每一行进行分类，包括标识在所述多个数据日志文件的所述多行中重复的多个字符串。创建使多个字符串中的每一个与唯一值匹配的表。创建向量，所述向量使用所述表来对与所述多个字符串中的每一个匹配的唯一值进行编码。根据对多行的分类来为向量中的编码的唯一值中的每一个分配安全相关性分数；以及选择编码的唯一值的子集，使得根据每个唯一值的安全相关性分数来对向量中的编码的唯一值进行过滤。量中的编码的唯一值进行过滤。量中的编码的唯一值进行过滤。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】对数据日志文件进行有损压缩的方法和系统

[0001]本公开在其一些实施方案中涉及日志文件压缩，并且更具体地但不排他地涉及数据日志文件的有损压缩。

技术介绍

[0002]数据压缩是使用比原始表示更少的位数对信息进行编码的过程。有两种类型的压缩。第一种类型是无损压缩，其通过标识和消除统计冗余来减少信息表示。在无损压缩中，不会丢失任何信息。然而，第二种类型是有损压缩。在有损压缩中，通过移除不必要的信息或不太重要的信息来减少信息。移除的信息会丢失并且通常无法重建。有损压缩对于图像文件和语音和/或话音文件(例如联合图像专家组(JPEG)和运动图像专家组第3层音频(MP3))来说是常见的。然而，对于文本文件来说，有损压缩很少使用，并且所有已知的文本压缩方法都是无损压缩，例如ZIP方法、Lempel Ziv Welch(LZ压缩)等。
[0003]执行数据压缩的装置通常被称为编码器，而执行所述过程的逆过程(即解压缩)的装置被称为解码器。
[0004]数据压缩可以显著减少文件占用的存储量。例如，在2:1的压缩比下，20兆字节(MB)的文件占用10MB的空间。由于压缩，管理员在存储上花费的金钱和时间更少。
[0005]压缩减少存储硬件(优化备份存储性能)、数据传输时间，并且有助于在带宽有限的通道上传输数据。随着数据持续呈指数级增长(例如大数据领域)，压缩发挥着重要作用，并成为数据缩减的重要方法。

技术实现思路

[0006]本公开的一个目的是描述用于通过创建向量来利用有损压缩有效地压缩数据日志文件...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于数据日志文件压缩的方法，其包括：利用至少两个级别的层次聚类对多个数据日志文件中的多行中的每一行进行分类，包括标识在所述多个数据日志文件的所述多行中重复的多个字符串；创建使所述多个字符串中的每一个与唯一值匹配的表；创建向量，所述向量使用所述表对与所述多个字符串中的每一个匹配的所述唯一值进行编码；根据对所述多行的所述分类来为所述向量中的所述编码的唯一值中的每一个分配安全相关性分数；以及选择所述编码的唯一值的子集，使得根据每个唯一值的所述安全相关性分数来对所述向量中的所述编码的唯一值进行过滤。2.根据权利要求1所述的方法，其还包括：将所述向量发送到检测器，以根据对所述向量的分析来检测所述多个数据日志文件中的异常行为。3.根据权利要求1所述的方法，其还包括用于生成用于数据日志文件压缩的模型的计算机实施的方法，所述计算机实施的方法包括：接收由一个或多个电气部件创建的多个日志文件；用所述多个日志文件训练至少一个模型以对所述多个日志文件中的所述多行中的每一行进行分类，并根据所述多行中的每一行的所述分类为所述多行中的每一行分配安全相关性分数；输出所述至少一个模型以用于对所述多个日志文件中的所述多行中的每一行进行分类，并基于由一个或多个其他电气部件创建的新日志文件，根据对所述多行中的每一行的所述分类来为所述多行中的每一行分配安全相关性分数。4.根据权利要求3所述的方法，其中训练至少一个模型还包括：从每个重复的字符串中提取字符串参数并将所述字符串参数存储在单独文件中。5.根据权利要求1所述的方法，其中所述至少两个级别的层次分类是根据以下各者进行的：基于创建日志行的所述日志文件的所述电气部件的粗略聚类；以及根据所述日志行与其他日志行的内容相似性进行的精细聚类。6.根据权利要求1所述的方法，其还包括：利用二进制压缩算法来压缩与所述多个字符串匹配的所述唯一值的所选子集。7.根据权利要求1所述的方法，其还包括用于执行用于数据日志文件压缩的模型的计算机实施的方法，所述计算机实施的方法包括：从一个或多个电气部件接收多个日志文件；执行至少一个模型以对所述多个日志文件中的多行中的每一行进行分类，并根据对所述多行中的每一行的所述分类为所述多行中的每一行分配安全相关性分数；以及基于对所述至少一个模型的所述执行的输出，对所述多个日志文件中的多行中的每一行进行分类，并根据对所述多行中的每一行的所述分类来为所述多行中的每一行分配安全相关性分数。8.根据权利要求2所述的方法，其中对所述向量的所述分析是通过监督机器学习算法
来进行的，所述监督机器学习算法用标记的恶意和良性行为的日志行进行训练，以检测其他日志行中的恶意行为。9.根据权利要求8所述的方法，其中所述监督机器学习算法是以下列表中的成员：决策树、神经网络和支持向量机(SVM)。10.根据权利要求2所述的方法，其中对所述创建的向量的所述分析是通过无监督机器学习算法进行的，所述无监督机器学习算法用未标记的日志行进行训练以从其他日志行的正常行为中检测异常行为。11.根据权利要求10所述的方法，其中所述无监督机器学习...

【专利技术属性】
技术研发人员：N，
申请(专利权)人：雷德本德有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人