基于学习方式的日志类型识别方法及装置制造方法及图纸

技术编号:32466127 阅读:21 留言:0更新日期:2022-02-26 09:29
本公开提供一种基于学习方式的日志类型识别方法及装置,所述方法包括基于预先获取的各类系统日志,根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理;将进行分词处理后的系统日志建立词嵌入向量,并对词嵌入向量进行归一化处理,确定系统日志词向量;获取每类系统日志词向量之间的向量距离,根据所述向量距离以及预先确定的距离阈值,确定所述系统日志的不变部分;根据所述系统日志的不变部分,确定所述不变部分的词向量对应的关键词,并根据所述关键词确定与所述关键词对应的设备规格化脚本。本公开的方法能够降低人工制作日志规格化脚本的工作量,提升工作效率。提升工作效率。提升工作效率。

【技术实现步骤摘要】
基于学习方式的日志类型识别方法及装置


[0001]本公开涉及机器学习
,尤其涉及一种基于学习方式的日志类型识别方法及装置。

技术介绍

[0002]在安全大数据分析系统中,对于各类设备的日志标准化是非常重要的一环,所谓日志标准化就是指根据不同类型的设备,对其产生的日志进行规格化,进行规格化的目的主要是将非结构化数据转换为结构化的数据,以便于制定相关规则进行审计或分析;一般这些规格化的脚本需要人工识别日志格式并进行编写。
[0003]一般的日志规格化后,会关注诸如IP地址(包括源、目的等)、端口(包括源、目的端口,但更为关注目的端口,而源端口在于网络会话的溯源中也有一定的作用,如地址NAT转换等)、日志的性质、严重程度、部分负载(在WAF日志中负载是非常重要的内容,对于判断SQL注入、Webshell、命令注入等有着关键的作用)、文件名称、进程名称、进程路径(上述这些特征在Windows类恶意软件行为的分析中有着重要作用)等,利用上述规格化后的数据,可以制定相关规则进行安全问题的检查,如针对一些无文件的攻击,在这类攻击中会调用一些系统脚本,如Powershell、CScript等,所以规格化既是安全分析的第一步也是最为重要的一环。
[0004]传统的日志规格化或标准化的做法是通过人工指定设备和规格化脚本的关系,或者采用半自动的海量正则特征匹配的方法进行,上述这些方法明显存在如下几个方面的缺陷:第一,由于需要人工关联设备或系统与规格化脚本之间的关系,故在实际实施过程中,面对海量设备则显得效率过低,实施成本太高,而且如一台设备中包含不止一类的日志需要被收集和分析,则实施起来更为繁琐;第二,使用半自动的、基于海量正则匹配的方法,会导致设备产品运行效率过低,在识别过程中将耗用大量CPU时间以处理识别环节,因为一般在大数据环境中,这些日志的数量巨大,通常每秒会超过20000条;第三,在虚拟化环境中,主机的IP地址可能经常发生变化,采用传统方法很难应对这种情况,会导致已经配置好的信息需要经常性地变动,从而可能致使日志规格化的失败。
[0005]综上所述,所以需要一个高度自动化的日志格式识别机制,以解决上述相关问题,从而达到在不干涉或少干涉的情况下,能正确规格化各类主流设备发出的运行日志,包括如Linux主机、Windows主机、常见安全设备、常见路由/交换设备、数据库/大数据系统等。
[0006]公开于本申请
技术介绍
部分的信息仅仅旨在加深对本申请的一般
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

技术实现思路

[0007]本公开实施例提供一种基于学习方式的日志类型识别方法及装置,能够至少解决现有技术中的部分问题。
[0008]本公开实施例的第一方面,提供一种基于学习方式的日志类型识别方法,包括:基于预先获取的各类系统日志,根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理;将进行分词处理后的系统日志建立词嵌入向量,并对词嵌入向量进行归一化处理,确定系统日志词向量;获取每类系统日志词向量之间的向量距离,根据所述向量距离以及预先确定的距离阈值,确定所述系统日志的不变部分;根据所述系统日志的不变部分,确定所述不变部分的词向量对应的关键词,并根据所述关键词确定与所述关键词对应的设备规格化脚本。
[0009]在一种可选的实施方式中,所述系统日志的数据类型至少包括类自然语言类型、半自然语言类型以及键值对或类键值对类型中至少一种,根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理:当所述系统日志的数据类型包括类自然语言类型时,对其整体数据采用第一预设分隔符进行分词处理;当所述系统日志的数据类型包括半自然语言类型时,对其相邻片段采用第二预设分隔符进行分词处理;当所述系统日志的数据类型包括键值对或类键值对类型时,对其各个键值对采用与其对应的第三预设分隔符进行分词处理。
[0010]在一种可选的实施方式中,在获取每类系统日志词向量之间的向量距离的方法之前,所述方法还包括:按照如下公式所示的方法确定每个词向量与其在同一条系统日志中的向量维度关系:其中,表示词w
i
和词w
j
的词距离,表示日志的数量,表示位置参数,表示第k条日志;所述获取每类系统日志词向量之间的向量距离的方法包括:按照如下公式所示的方法获取每类系统日志词向量之间的向量距离:
其中,表示每类系统日志词向量之间的向量距离,表示第个词向量,表示第个词向量,表示的模范数,表示的模范数。
[0011]在一种可选的实施方式中,在将进行分词处理后的系统日志建立词嵌入向量之前,所述方法还包括:获取进行分词处理后的系统日志的数值部分,并将所述数值部分按照预设替换规则进行数值替换;和/或获取进行分词处理后的系统日志的时间数值中的月份数据,并将所述月份数据进行过滤。
[0012]在一种可选的实施方式中,所述确定所述不变部分的词向量对应的关键词,并根据所述关键词确定与所述关键词对应的设备规格化脚本的方法包括:其中,表示关键词比例,表示词的数量,表示命中的单词数。
[0013]本公开实施例的第二方面,提供一种基于学习方式的日志类型识别装置,包括:第一单元,用于基于预先获取的各类系统日志,根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理;第二单元,用于将进行分词处理后的系统日志建立词嵌入向量,并对词嵌入向量进行归一化处理,确定系统日志词向量;第三单元,用于获取每类系统日志词向量之间的向量距离,根据所述向量距离以及预先确定的距离阈值,确定所述系统日志的不变部分;第四单元,用于根据所述系统日志的不变部分,确定所述不变部分的词向量对应的关键词,并根据所述关键词确定与所述关键词对应的设备规格化脚本。
[0014]在一种可选的实施方式中,所述系统日志的数据类型至少包括类自然语言类型、半自然语言类型以及键值对或类键值对类型中至少一种,所述第一单元还用于:根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理:当所述系统日志的数据类型包括类自然语言类型时,对其整体数据采用第一预设分隔符进行分词处理;当所述系统日志的数据类型包括半自然语言类型时,对其相邻片段采用第二预设分隔符进行分词处理;当所述系统日志的数据类型包括键值对或类键值对类型时,对其各个键值对采用与其对应的第三预设分隔符进行分词处理。
[0015]在一种可选的实施方式中,
所述装置还包括第五单元,所述第五单元用于:按照如下公式所示的方法确定每个词向量与其在同一条系统日志中的向量维度关系:其中,表示词w
i
和词w
j
的词距离,表示日志的数量,表示位置参数,表示第k条日志;所述第三单元还用于:按照如下公式所示的方法获取每类系统日志词向量之间的向量距离:其中,表示每类系统日志词向量之间的向量距离,表示第个词向量,表示第个词向量,表示的模范数,表示的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于学习方式的日志类型识别方法,其特征在于,包括:基于预先获取的各类系统日志,根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理;将进行分词处理后的系统日志建立词嵌入向量,并对词嵌入向量进行归一化处理,确定系统日志词向量;获取每类系统日志词向量之间的向量距离,根据所述向量距离以及预先确定的距离阈值,确定所述系统日志的不变部分;根据所述系统日志的不变部分,确定所述不变部分的词向量对应的关键词,并根据所述关键词确定与所述关键词对应的设备规格化脚本。2.根据权利要求1所述的方法,其特征在于,所述系统日志的数据类型至少包括类自然语言类型、半自然语言类型以及键值对或类键值对类型中至少一种,根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理:当所述系统日志的数据类型包括类自然语言类型时,对其整体数据采用第一预设分隔符进行分词处理;当所述系统日志的数据类型包括半自然语言类型时,对其相邻片段采用第二预设分隔符进行分词处理;当所述系统日志的数据类型包括键值对或类键值对类型时,对其各个键值对采用与其对应的第三预设分隔符进行分词处理。3.根据权利要求1所述的方法,其特征在于,在获取每类系统日志词向量之间的向量距离的方法之前,所述方法还包括:按照如下公式所示的方法确定每个词向量与其在同一条系统日志中的向量维度关系:其中,表示词w
i
和词w
j
的词距离,表示日志的数量,表示位置参数,表示第k条日志;所述获取每类系统日志词向量之间的向量距离的方法包括:按照如下公式所示的方法获取每类系统日志词向量之间的向量距离:其中,表示每类系统日志词向量之间的向量距离,表示第个词向量,表示第个词向量,表示的模范数,表示的模范数。4.根据权利要求1所述的方法,其特征在于,在将进行分词处理后的系统日志建立词嵌入向量之前,所述方法还包括:
获取进行分词处理后的系统日志的数值部分,并将所述数值部分按照预设替换规则进行数值替换;和/或获取进行分词处理后的系统日志的时间数值中的月份数据,并将所述月份数据进行过滤。5.根据权利要求1所述的方法,其特征在于,所述确定所述不变部分的词向量对应的关键词,并根据所述关键词确定与所述关键词对应的设备规格化脚本的方法包括:其中,表示关键词比...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:南京聚铭网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1