对数据日志文件进行有损压缩的方法和系统技术方案

技术编号:38874073 阅读:11 留言:0更新日期:2023-09-22 14:08
公开了用于数据日志文件压缩的方法和设备。所述方法包括:利用至少两个级别的层次聚类对多个数据日志文件中的多行中的每一行进行分类,包括标识在所述多个数据日志文件的所述多行中重复的多个字符串。创建使多个字符串中的每一个与唯一值匹配的表。创建向量,所述向量使用所述表来对与所述多个字符串中的每一个匹配的唯一值进行编码。根据对多行的分类来为向量中的编码的唯一值中的每一个分配安全相关性分数;以及选择编码的唯一值的子集,使得根据每个唯一值的安全相关性分数来对向量中的编码的唯一值进行过滤。量中的编码的唯一值进行过滤。量中的编码的唯一值进行过滤。

【技术实现步骤摘要】
【国外来华专利技术】对数据日志文件进行有损压缩的方法和系统


[0001]本公开在其一些实施方案中涉及日志文件压缩,并且更具体地但不排他地涉及数据日志文件的有损压缩。

技术介绍

[0002]数据压缩是使用比原始表示更少的位数对信息进行编码的过程。有两种类型的压缩。第一种类型是无损压缩,其通过标识和消除统计冗余来减少信息表示。在无损压缩中,不会丢失任何信息。然而,第二种类型是有损压缩。在有损压缩中,通过移除不必要的信息或不太重要的信息来减少信息。移除的信息会丢失并且通常无法重建。有损压缩对于图像文件和语音和/或话音文件(例如联合图像专家组(JPEG)和运动图像专家组第3层音频(MP3))来说是常见的。然而,对于文本文件来说,有损压缩很少使用,并且所有已知的文本压缩方法都是无损压缩,例如ZIP方法、Lempel Ziv Welch(LZ压缩)等。
[0003]执行数据压缩的装置通常被称为编码器,而执行所述过程的逆过程(即解压缩)的装置被称为解码器。
[0004]数据压缩可以显著减少文件占用的存储量。例如,在2:1的压缩比下,20兆字节(MB)的文件占用10MB的空间。由于压缩,管理员在存储上花费的金钱和时间更少。
[0005]压缩减少存储硬件(优化备份存储性能)、数据传输时间,并且有助于在带宽有限的通道上传输数据。随着数据持续呈指数级增长(例如大数据领域),压缩发挥着重要作用,并成为数据缩减的重要方法。

技术实现思路

[0006]本公开的一个目的是描述用于通过创建向量来利用有损压缩有效地压缩数据日志文件的系统和方法,所述向量对与数据日志文件中的行匹配的唯一值进行编码。
[0007]本公开的另一个目的是描述一种用于通过分析创建的向量来检测数据日志文件中的异常的方法,所述创建的向量对与数据日志文件中的行匹配的唯一值进行编码。
[0008]上述和其他目的通过独立权利要求的特征来实现。根据从属权利要求、说明书和附图,另外的实施方式形式是显而易见的。
[0009]在一个方面,本公开涉及一种用于数据日志文件压缩的方法。所述方法包括:利用至少两个级别的层次聚类对多个数据日志文件中的多行中的每一行进行分类,包括标识在多个数据日志文件的多行中重复的多个字符串;创建使多个字符串中的每一个与唯一值匹配的表;创建向量,所述向量使用所述表来对与多个字符串中的每一个匹配的唯一值进行编码;根据对多行的分类来为向量中的编码的唯一值中的每一个分配安全相关性分数;以及选择编码的唯一值的子集,使得根据每个唯一值的安全相关性分数来对向量中的编码的唯一值进行过滤。
[0010]至少两个级别的层次聚类的使用使得能够在字符串属于不同集群时使用相同的唯一值来表示不同的字符串。与诸如Lempel

Ziv(LZ)压缩等标准压缩算法相比时,这减小
了经压缩文件的熵。
[0011]选择编码的唯一值的子集使得能够过滤日志文件中不太重要的字符串。可以根据所实施的系统的不同需要来控制过滤,并且可以相应地确定输出压缩文件的大小。
[0012]在第一方面的另外的实施方式中,所述方法还包括将向量发送到检测器,以根据对向量的分析来检测多个数据日志文件中的异常行为。
[0013]在第一方面的另外的实施方式中,所述方法还包括用于生成用于数据日志文件压缩的模型的计算机实施的方法。所述计算机实施的方法包括:接收由一个或多个电气部件创建的多个日志文件;用多个日志文件训练至少一个模型以对多个日志文件中的多行中的每一行进行分类并根据对多行中的每一行的分类来为多行中的每一行分配安全相关性分数;以及输出至少一个模型以用于对多个日志文件中的多行中的每一行进行分类,并基于由一个或多个其他电气部件创建的新日志文件,根据对多行中的每一行的分类来为多行中的每一行分配安全相关性分数。
[0014]在第一方面的另外的实施方式中,训练至少一个模型还包括从每个重复的字符串中提取字符串参数并将字符串参数存储在单独文件中。
[0015]在第一方面的另外的实施方式中,至少两个级别的层次分类是根据以下各者进行的:
[0016]基于创建日志行的所述日志文件的所述电气部件的粗略聚类;以及
[0017]根据所述日志行与其他日志行的内容相似性进行的精细聚类。
[0018]精细聚类还可以被实施为层次聚类,这进一步减小了经压缩文件的熵。
[0019]在第一方面的另外的实施方式中,所述方法还包括利用二进制压缩算法来压缩与多个字符串匹配的唯一值的所选子集。
[0020]在第一方面的另外的实施方式中,所述方法还包括用于执行用于数据日志文件压缩的模型的计算机实施的方法,所述计算机实施的方法包括:
[0021]从一个或多个电气部件接收多个日志文件;
[0022]执行至少一个模型以对所述多个日志文件中的多行中的每一行进行分类,并根据对所述多行中的每一行的所述分类为所述多行中的每一行分配安全相关性分数;以及
[0023]基于对所述至少一个模型的所述执行的输出,对所述多个日志文件中的多行中的每一行进行分类,并根据对所述多行中的每一行的所述分类来为所述多行中的每一行分配安全相关性分数。
[0024]在第一方面的另外的实施方式中,对向量的分析是通过监督机器学习算法来进行的,所述监督机器学习算法用标记的恶意和良性行为的日志行进行训练,以检测其他日志行中的恶意行为。
[0025]在第一方面的另外的实施方式中,监督机器学习算法是以下列表中的成员:决策树、神经网络和支持向量机(SVM)。
[0026]在第一方面的另外的实施方式中,对创建的向量的分析是通过无监督机器学习算法进行的,所述无监督机器学习算法用未标记的日志行进行训练以从其他日志行的正常行为中检测异常行为。
[0027]在第一方面的另外的实施方式中,无监督机器学习算法是以下列表中的成员:一类支持向量机(SVM)或自动编码器。
[0028]在第一方面的另外的实施方式中,数据日志文件是车辆数据日志文件。
[0029]在第一方面的另外的实施方式中,表是散列表。
[0030]在第一方面的另外的实施方式中,对向量的分析指示安全威胁。
[0031]在第二方面,本公开涉及一种用于数据日志文件解压缩的方法。所述方法包括:接收具有多个唯一值的经编码文件,其中每个唯一值表示多个字符串中的一个字符串;根据使多个唯一值中的每一个与多个字符串中的每一个字符串匹配的表来对经编码文件进行解码;以及将多个字符串中的每一个与存储在单独文件中的多个字符串中的每一个的参数组合,以重建在编码之前经编码文件的原始行。
[0032]在第三方面,本公开涉及一种用于日志压缩的设备,所述设备包括至少一个处理器,所述至少一个处理器被配置为执行用于进行以下操作的代码:
[0033]利用至少两个级别的层次聚类对多个数据日志文件中的多行中的每一行进行分类,包括标识在所述多个数据日志文件的所述多行中重复的多个字符串;
[0034]创建使所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于数据日志文件压缩的方法,其包括:利用至少两个级别的层次聚类对多个数据日志文件中的多行中的每一行进行分类,包括标识在所述多个数据日志文件的所述多行中重复的多个字符串;创建使所述多个字符串中的每一个与唯一值匹配的表;创建向量,所述向量使用所述表对与所述多个字符串中的每一个匹配的所述唯一值进行编码;根据对所述多行的所述分类来为所述向量中的所述编码的唯一值中的每一个分配安全相关性分数;以及选择所述编码的唯一值的子集,使得根据每个唯一值的所述安全相关性分数来对所述向量中的所述编码的唯一值进行过滤。2.根据权利要求1所述的方法,其还包括:将所述向量发送到检测器,以根据对所述向量的分析来检测所述多个数据日志文件中的异常行为。3.根据权利要求1所述的方法,其还包括用于生成用于数据日志文件压缩的模型的计算机实施的方法,所述计算机实施的方法包括:接收由一个或多个电气部件创建的多个日志文件;用所述多个日志文件训练至少一个模型以对所述多个日志文件中的所述多行中的每一行进行分类,并根据所述多行中的每一行的所述分类为所述多行中的每一行分配安全相关性分数;输出所述至少一个模型以用于对所述多个日志文件中的所述多行中的每一行进行分类,并基于由一个或多个其他电气部件创建的新日志文件,根据对所述多行中的每一行的所述分类来为所述多行中的每一行分配安全相关性分数。4.根据权利要求3所述的方法,其中训练至少一个模型还包括:从每个重复的字符串中提取字符串参数并将所述字符串参数存储在单独文件中。5.根据权利要求1所述的方法,其中所述至少两个级别的层次分类是根据以下各者进行的:基于创建日志行的所述日志文件的所述电气部件的粗略聚类;以及根据所述日志行与其他日志行的内容相似性进行的精细聚类。6.根据权利要求1所述的方法,其还包括:利用二进制压缩算法来压缩与所述多个字符串匹配的所述唯一值的所选子集。7.根据权利要求1所述的方法,其还包括用于执行用于数据日志文件压缩的模型的计算机实施的方法,所述计算机实施的方法包括:从一个或多个电气部件接收多个日志文件;执行至少一个模型以对所述多个日志文件中的多行中的每一行进行分类,并根据对所述多行中的每一行的所述分类为所述多行中的每一行分配安全相关性分数;以及基于对所述至少一个模型的所述执行的输出,对所述多个日志文件中的多行中的每一行进行分类,并根据对所述多行中的每一行的所述分类来为所述多行中的每一行分配安全相关性分数。8.根据权利要求2所述的方法,其中对所述向量的所述分析是通过监督机器学习算法
来进行的,所述监督机器学习算法用标记的恶意和良性行为的日志行进行训练,以检测其他日志行中的恶意行为。9.根据权利要求8所述的方法,其中所述监督机器学习算法是以下列表中的成员:决策树、神经网络和支持向量机(SVM)。10.根据权利要求2所述的方法,其中对所述创建的向量的所述分析是通过无监督机器学习算法进行的,所述无监督机器学习算法用未标记的日志行进行训练以从其他日志行的正常行为中检测异常行为。11.根据权利要求10所述的方法,其中所述无监督机器学习...

【专利技术属性】
技术研发人员:N
申请(专利权)人:雷德本德有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1