一种针对多种网络日志进行语义解析及结构化的方法技术

技术编号:36951969 阅读:28 留言:0更新日期:2023-03-22 19:12
本发明专利技术提供有一种针对多种网络日志进行语义解析及结构化的方法,该方法包括以下步骤:数据预处理,将原始日志数据处理为算法要求的标准输入数据,包括命名实体识别、分词、过滤、大小写转换、向量化等;日志来源检测,针对不同来源的日志进行分析,总结其日志格式,并提取正则表达式,为每一个来源的日志构建日志格式,根据日志格式检测日志来源;本发明专利技术所述的针对多种网络日志进行语义解析及结构化的方法,该方法可以对文件/文件夹操作异常、网络异常、数据库异常、硬件异常、系统异常、其他异常等进行语义解析及结构化分析,快速针对不同来源组件的日志进行测试,每个组件日志各选择10000条日志进行测试,准确率达99.95%。准确率达99.95%。准确率达99.95%。

【技术实现步骤摘要】
一种针对多种网络日志进行语义解析及结构化的方法


[0001]本专利技术涉及墙面清理
,具体公开一种针对多种网络日志进行语义解析及结构化的方法。

技术介绍

[0002]随着信息技术的不断发展,信息系统和设施为各行各业的生产和生活提供极大的便利,而与之相关的网络安全,则成为关系公共安全,甚至是国家安全的关键环节,对网络攻击行为和非法行为进行实时监控已成为保护关键信息基础设施安全的必要措施;
[0003]语义解析,指的是将自然语言问句转化为逻辑形式的任务。逻辑形式,是一种结构化的语义表达式,通常是一种可执行语句,比如Lambda表达式、SQL查询语言,能够被程序直接执行,从数据库中检索并返回答案。由于和知识库的紧耦合特性,语义解析常常应用于基于知识图谱或数据库的自动问答领域;
[0004]为了构建某一全新领域的语义解析器,研究人员需要首先获取大量的训练数据,通常从编写(规范问句,逻辑形式)元组的模板规则开始;
[0005]但是,由于只使用模板规则生成的语料,由于规范语句和自然语句存在数据分布上的明显差异,训练出的朴素语义解析器在真实问句(自然语言问句)上效果较差,泛化性能不好。为此,我们提出一种针对多种网络日志进行语义解析及结构化的方法。

技术实现思路

[0006]鉴于现有技术中的上述缺陷或不足,本申请旨在提供一种针对多种网络日志进行语义解析及结构化的方法,该方法包括以下步骤:
[0007]步骤一、数据预处理,将原始日志数据处理为算法要求的标准输入数据,包括命名实体识别、分词、过滤、大小写转换、向量化等;
[0008]步骤二、日志来源检测,针对不同来源的日志进行分析,总结其日志格式,并提取正则表达式,为每一个来源的日志构建日志格式,根据日志格式检测日志来源;
[0009]步骤三、获取日志数据,进行日志解析,使用VCNN服务器对已处理过的日志进行基于日志语义和服务完成强度的日志分类;
[0010]步骤四、VCNN服务器使用宽褶积,其褶积结果是特征空间二维图,拼接每个词向量在分量的个数上的输出向量以获得最终输出特征图cemw∈Rn
×
k,可变池化层分别采用最大池化和平均池化来对从可变褶积层提取的特征进行池化,然后将这些结果组合为卷积神经网络的全连接层的输入;
[0011]步骤五、卷积神经网络的全连接层在整个褶积神经网络中起到分类器的作用,通过卷积神经网络的全连接层的褶积,获得按照服务从失败到成功的强度划分为5个同构与异构分类集群;
[0012]步骤六、基于词间相关性的改进贝叶斯分类,在分类中,将分类结果与在线服务的性能表现进行相关性分析,找出与服务异常相关的日志来源文本,对于VCNN服务器的输出5
个同构与异构分类集群,依次对这些集群进行基于在线服务故障分类的划分;
[0013]步骤七、通过以上步骤,识别出日志属于服务完成强度的级别,如果是服务失败故障率高的级别,还可识别出该日志所关联的服务性能,通过持续收集在线服务的系统日志,重复上述,完成在线服务异常检测。
[0014]优选的,命名实体识别需要对timestamp,url,ip,file,path,number,email日志中经常出现的实体进行识别。
[0015]优选的,所述VCNN服务器的整体结构包括词向量矩阵的输入层、可变褶积层、可变池化层、卷积神经网络的全连接层和输出层。
[0016]优选的,可变褶积层从词向量矩阵中的语句长度和词向量在分量的个数提取特征。
[0017]优选的,可变褶积层的输入矩阵为s∈Rn
×
k,其中R表示一个几何空间,n表示输入句子的长度,k表示词向量的维度。
[0018]优选的,步骤一中分词需要考虑日志中常见的驼峰表达式;在日志向量化过程中,利用通用语料+系统/中间件日志语料+业务日志语料训练词向量,最终,词向量在分量的个数为200维,词库大小为583511。
[0019]优选的,除了在语句长度方向上进行一维褶积外,VCNN服务器还在词向量在分量的个数上进行褶积,褶积核大小为w
×
1,而w为褶积核在句子长度中的宽度;每个词向量在分量的个数都对应于它自己的褶积内核;假设褶积宽度为wg∈Rw
×
1,并且表示应用于输入矩阵第g维的一维褶积核;在句子长度的方向上,si表示第i个词的词向量,si:g表示从第i个词到第g个词的词向量的拼接矩阵;使用褶积核wg对词序列进行褶积以生成特征将第g个词向量在分量的个数上的褶积核wg应用于所有可能的词序列在句子的第g个词向量在分量的个数上,以生成相应的特征图。
[0020]有益效果:该针对多种网络日志进行语义解析及结构化的方法,该方法可以对日志异常类型分为6类:文件/文件夹操作异常、网络异常、数据库异常、硬件异常、系统异常、其他异常等进行语义解析及结构化分析,快速针对不同来源组件的日志进行测试,每个组件日志各选择10000条日志进行测试,准确率达99.94%,针对成熟的系统/中间组件,构建规则进行来源检测可以达到极高的准确率。
附图说明
[0021]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0022]图1为本专利技术针对多种网络日志进行语义解析及结构化的系统框图。
具体实施方式
[0023]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。
[0024]本专利技术实施例中的附图:图中不同种类的剖面线不是按照国标进行标注的,也不对元件的材料进行要求,是对图中元件的剖视图进行区分。
[0025]请参阅图1,一种针对多种网络日志进行语义解析及结构化的方法,该方法包括以下步骤:
[0026]步骤一、数据预处理,将原始日志数据处理为算法要求的标准输入数据,包括命名实体识别、分词、过滤、大小写转换、向量化等;
[0027]步骤二、日志来源检测,针对不同来源的日志进行分析,总结其日志格式,并提取正则表达式,为每一个来源的日志构建日志格式,根据日志格式检测日志来源;
[0028]步骤三、获取日志数据,进行日志解析,使用VCNN服务器对已处理过的日志进行基于日志语义和服务完成强度的日志分类;
[0029]步骤四、VCNN服务器使用宽褶积,其褶积结果是特征空间二维图,拼接每个词向量在分量的个数上的输出向量以获得最终输出特征图cemw∈Rn
×
k,可变池化层分别采用最大池化和平均池化来对从可变褶积层提取的特征进行池化,然后将这些结果组合为卷积神经网络的全连接层的输入;
[0030]步骤五、卷积神经网络的全连接层在整个褶积神经网络中起到分类器的作用,通过卷积神经网络的全连接层的褶积,获得按照服务从失败到成功的强度划分为5个同构与异构分类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对多种网络日志进行语义解析及结构化的方法,其特征在于:该方法包括以下步骤:步骤一、数据预处理,将原始日志数据处理为算法要求的标准输入数据,包括命名实体识别、分词、过滤、大小写转换、向量化等;步骤二、日志来源检测,针对不同来源的日志进行分析,总结其日志格式,并提取正则表达式,为每一个来源的日志构建日志格式,根据日志格式检测日志来源;步骤三、获取日志数据,进行日志解析,使用VCNN服务器对已处理过的日志进行基于日志语义和服务完成强度的日志分类;步骤四、VCNN服务器使用宽褶积,其褶积结果是特征空间二维图,拼接每个词向量在分量的个数上的输出向量以获得最终输出特征图cemw∈Rn
×
k,可变池化层分别采用最大池化和平均池化来对从可变褶积层提取的特征进行池化,然后将这些结果组合为卷积神经网络的全连接层的输入;步骤五、卷积神经网络的全连接层在整个褶积神经网络中起到分类器的作用,通过卷积神经网络的全连接层的褶积,获得按照服务从失败到成功的强度划分为5个同构与异构分类集群;步骤六、基于词间相关性的改进贝叶斯分类,在分类中,将分类结果与在线服务的性能表现进行相关性分析,找出与服务异常相关的日志来源文本,对于VCNN服务器的输出5个同构与异构分类集群,依次对这些集群进行基于在线服务故障分类的划分;步骤七、通过以上步骤,识别出日志属于服务完成强度的级别,如果是服务失败故障率高的级别,还可识别出该日志所关联的服务性能,通过持续收集在线服务的系统日志,重复上述,完成在线服务异常检测。2.根据权利要求1所述的一种针对多种网络日志进行语义解析及结构化的方法,其特征在于:命名实体识别需要对timestamp,url,ip,file,path,number,email日志中经常出现的实...

【专利技术属性】
技术研发人员:徐润李瑶樊一鸣陈鑫林小竺周仲波陈静怡郑智浩阙兴黔邓德茂张红月胡兵轩
申请(专利权)人:贵州电网有限责任公司遵义供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1