基于学习方式的日志类型识别方法及装置制造方法及图纸

技术编号：32466127 阅读：21 留言：0更新日期：2022-02-26 09:29

本公开提供一种基于学习方式的日志类型识别方法及装置，所述方法包括基于预先获取的各类系统日志，根据系统日志的数据类型与其对应的分词处理方式，对所述系统日志的数据进行分词处理；将进行分词处理后的系统日志建立词嵌入向量，并对词嵌入向量进行归一化处理，确定系统日志词向量；获取每类系统日志词向量之间的向量距离，根据所述向量距离以及预先确定的距离阈值，确定所述系统日志的不变部分；根据所述系统日志的不变部分，确定所述不变部分的词向量对应的关键词，并根据所述关键词确定与所述关键词对应的设备规格化脚本。本公开的方法能够降低人工制作日志规格化脚本的工作量，提升工作效率。提升工作效率。提升工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于学习方式的日志类型识别方法及装置

[0001]本公开涉及机器学习
，尤其涉及一种基于学习方式的日志类型识别方法及装置。

技术介绍

[0002]在安全大数据分析系统中，对于各类设备的日志标准化是非常重要的一环，所谓日志标准化就是指根据不同类型的设备，对其产生的日志进行规格化，进行规格化的目的主要是将非结构化数据转换为结构化的数据，以便于制定相关规则进行审计或分析；一般这些规格化的脚本需要人工识别日志格式并进行编写。
[0003]一般的日志规格化后，会关注诸如IP地址（包括源、目的等）、端口（包括源、目的端口，但更为关注目的端口，而源端口在于网络会话的溯源中也有一定的作用，如地址NAT转换等）、日志的性质、严重程度、部分负载（在WAF日志中负载是非常重要的内容，对于判断SQL注入、Webshell、命令注入等有着关键的作用）、文件名称、进程名称、进程路径（上述这些特征在Windows类恶意软件行为的分析中有着重要作用）等，利用上述规格化后的数据，可以制定相关规则进行安全问题的检查，如针对一些无文件的攻击，在这类攻击中会调用一些系统脚本，如Powershell、CScript等，所以规格化既是安全分析的第一步也是最为重要的一环。
[0004]传统的日志规格化或标准化的做法是通过人工指定设备和规格化脚本的关系，或者采用半自动的海量正则特征匹配的方法进行，上述这些方法明显存在如下几个方面的缺陷：第一，由于需要人工关联设备或系统与规格化脚本之间的关系，故在实际实施过程中，面对海量设备则显得效率过低，实施...

【技术保护点】

【技术特征摘要】
1.一种基于学习方式的日志类型识别方法，其特征在于，包括：基于预先获取的各类系统日志，根据系统日志的数据类型与其对应的分词处理方式，对所述系统日志的数据进行分词处理；将进行分词处理后的系统日志建立词嵌入向量，并对词嵌入向量进行归一化处理，确定系统日志词向量；获取每类系统日志词向量之间的向量距离，根据所述向量距离以及预先确定的距离阈值，确定所述系统日志的不变部分；根据所述系统日志的不变部分，确定所述不变部分的词向量对应的关键词，并根据所述关键词确定与所述关键词对应的设备规格化脚本。2.根据权利要求1所述的方法，其特征在于，所述系统日志的数据类型至少包括类自然语言类型、半自然语言类型以及键值对或类键值对类型中至少一种，根据系统日志的数据类型与其对应的分词处理方式，对所述系统日志的数据进行分词处理：当所述系统日志的数据类型包括类自然语言类型时，对其整体数据采用第一预设分隔符进行分词处理；当所述系统日志的数据类型包括半自然语言类型时，对其相邻片段采用第二预设分隔符进行分词处理；当所述系统日志的数据类型包括键值对或类键值对类型时，对其各个键值对采用与其对应的第三预设分隔符进行分词处理。3.根据权利要求1所述的方法，其特征在于，在获取每类系统日志词向量之间的向量距离的方法之前，所述方法还包括：按照如下公式所示的方法确定每个词向量与其在同一条系统日志中的向量维度关系：其中，表示词w
i
和词w
j
的词距离，表示日志的数量，表示位置参数，表示第k条日志；所述获取每类系统日志词向量之间的向量距离的方法包括：按照如下公式所示的方法获取每类系统日志词向量之间的向量距离：其中，表示每类系统日志词向量之间的向量距离，表示第个词向量，表示第个词向量，表示的模范数，表示的模范数。4.根据权利要求1所述的方法，其特征在于，在将进行分词处理后的系统日志建立词嵌入向量之前，所述方法还包括：
获取进行分词处理后的系统日志的数值部分，并将所述数值部分按照预设替换规则进行数值替换；和/或获取进行分词处理后的系统日志的时间数值中的月份数据，并将所述月份数据进行过滤。5.根据权利要求1所述的方法，其特征在于，所述确定所述不变部分的词向量对应的关键词，并根据所述关键词确定与所述关键词对应的设备规格化脚本的方法包括：其中，表示关键词比...

【专利技术属性】
技术研发人员：ꢀ七四专利代理机构，
申请(专利权)人：南京聚铭网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人