一种日志关键信息提取方法、装置和计算机可读存储介质制造方法及图纸

技术编号:38883271 阅读:15 留言:0更新日期:2023-09-22 14:12
本发明专利技术实施例提供了一种日志关键信息提取方法、装置和计算机可读存储介质,所述方法包括:对日志模板进行预处理,得到结构化、半结构化和非结构化三类日志模板;对非结构化日志模板以及半结构化日志模板中的非结构化部分进行分词和词性标注;基于词性标注的结果构建三元组规则库;基于所述三元组规则库提取日志模板中的三元组信息。模板中的三元组信息。模板中的三元组信息。

【技术实现步骤摘要】
一种日志关键信息提取方法、装置和计算机可读存储介质


[0001]本专利技术涉及移动通信
,尤其涉及一种日志关键信息提取方法、装置和计算机可读存储介质。

技术介绍

[0002]目前,大部分日志关键信息提取技术能够较好地提取出结构化日志的关键信息,而对于一些完全由自然文本构成的非结构化日志,目前仅能做到基于一些特定词或特定部分的提取分析,对日志内容的提取具有局限性且限制了能够检测到的异常类型。由于日志能够反馈较多的隐患和告警信息,一旦发现异常或出现告警,相关技术可以定位到特定的异常日志,快速地找到该位置并报告错误类型,却很难做到进一步报告故障原因以及出错日志的信息,只能根据定位返回研究出错日志的问题所在。

技术实现思路

[0003]有鉴于此,本专利技术实施例期望提供一种日志关键信息提取方法、装置和计算机可读存储介质。
[0004]为达到上述目的,本专利技术实施例的技术方案是这样实现的:
[0005]本专利技术实施例提供了一种日志关键信息提取方法,该方法包括:
[0006]对日志模板进行预处理,得到结构化、半结构化和非结构化三类日志模板;
[0007]对非结构化日志模板以及半结构化日志模板中的非结构化部分进行分词和词性标注;
[0008]基于词性标注的结果构建三元组规则库;
[0009]基于所述三元组规则库提取日志模板中的三元组信息。
[0010]其中,所述对日志模板进行预处理,包括:
[0011]将带有请求关键字的日志模板以及日志模板中不少于预设个数的“=”的日志模板划分为结构化日志模板;
[0012]除结构化日志模板之外的日志模板分为半结构化日志模板和非结构化日志模板;其中,
[0013]将带有IP地址、和/或路径、和/或标签、和/或json格式的标记字符的日志模板划分为半结构化日志模板;
[0014]将完全由自然语言文本组成的日志模板划分为非结构化日志模板。
[0015]其中,所述半结构化日志模板中的非结构化部分,为:
[0016]将半结构化日志模板中的标记字符通过正则表达式匹配删除后剩下的部分。
[0017]其中,所述三元组表示为(S,P,O);其中,所述S表示主语;P表示谓语;O表示宾语;
[0018]所述三元组表示节点S和节点O之间通过动作P产生关联,用于描述一个完整事件。
[0019]其中,所述基于词性标注的结果构建三元组规则库,包括:
[0020]基于词性的位置、类型以及部分预设词性和语态构建辅助规则和句式语法规则;
其中,
[0021]所述辅助规则,用于判断预设词性的前后位置以及生成三元组中的P;
[0022]所述句式语法规则,用于根据所述辅助规则得到的P、词性的位置以及句式的差异生成三元组中的S和O。
[0023]其中,所述辅助规则中与动词相关的规则提取包括以下内容:
[0024]判定动词初始位置;
[0025]判定动词最后位置;
[0026]基于句子的语态生成P。
[0027]其中,所述判定动词初始位置时,将动词非第三人称单数VBP/或动词第三人称单数VBZ的位置置于最前面,动词过去式VBD在动词过去分词VBN之前;
[0028]如果有两个或多个动词过去式VBD且无连词,则选择最后面的一个动词过去式VBD。
[0029]其中,所述判定动词最后位置时,基于以下一种或多种情况进行判定:
[0030]动词位于句尾;
[0031]动词后接介词或副词;
[0032]动词后接否定词;
[0033]除上述情况外的其它情况。
[0034]其中,所述基于句子的语态生成P,包括:
[0035]对于被动语态,将动词过去分词还原成原形,从动词原形至句尾共同作为P;其中,从动词原形至句尾之间如果有模态助词,也保留;
[0036]对于主动语态,由动词的初始位置和最后位置确定P;其中,
[0037]若动词前存在副词或否定词修饰时,则提前动词的初始位置;
[0038]若句中包含连词,则基于连词前后是否存在名词的情况确定P;
[0039]当副词存在于动词后两位之后时,则P为:由动词的初始位置和最后位置确定的P再加上所述副词。
[0040]其中,所述辅助规则中与名词相关的规则提取包括以下内容:
[0041]判定名词或复合名词初始位置;
[0042]判定名词或复合名词最后位置。
[0043]其中,所述辅助规则中与形容词相关的规则提取包括:
[0044]如果句中无动词时,判定形容词最后位置。
[0045]其中,所述根据所述辅助规则得到的P、词性的位置以及句式的差异生成三元组中的S和O,包括:
[0046]基于分词中是否有句号或逗号判断是否可将日志模板拆分成多个句子;
[0047]判断每句中有无动词和名词、以及名词与动词的先后位置,基于判断结果分为如下几种情况根据语境和句式并结合所述P生成三元组中的S和O:
[0048]句中存在动词且动词位置在名词前;
[0049]句中存在动词且动词位置在名词后;
[0050]句中不存在动词但存在形容词。
[0051]其中,所述句中存在动词且动词位置在名词前时,所述生成三元组中的S和O,包
括:
[0052]确定S为调用动作P的模块,再根据名词后有无预设介词来生成O;若名词后为预设介词,则S为预设介词后至句尾;其中,O的生成存在如下一种或多种情况:
[0053]O为名词初始位置至句尾;
[0054]O为动词结尾与预设句式中的介词间的部分;
[0055]如果存在连词,判断连词前后是否存在名词来生成O;
[0056]如果存在副词、且副词位于动词后两位之后,则O为名词初始位置至副词前。
[0057]其中,所述句中存在动词且动词位置在名词后时,所述生成三元组中的S和O,包括:
[0058]若为通用句式和语态,则结合动词位置和动词后是否为预设介词来确定S和O,S的初始位置为名词的初始位置,O的初始位置在动词之后;
[0059]若动词后不为预设介词,则根据动词前是否有否定词来确定S的最后位置,根据句中是否有连词来确定O的最后位置;
[0060]若句式为被动语态,则S为模块名称,O由名词前后位置得出。
[0061]其中,所述句中不存在动词但存在形容词时,所述生成三元组中的S和O,包括:
[0062]先由所述辅助规则得出形容词最后位置作为P的最后位置,然后根据形容词与名词位置的前后得出P的初始位置;
[0063]形容词位于句尾时,S为名词初始位置至形容词前,O为空;根据形容词结尾后是否有预设介词以及预设介词后两位之后是否有副词来生成S和O。
[0064]其中,所述基于所述三元组规则库提取日志模板中的三元组信息,包括:
[0065]将非结构化日志模板本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志关键信息提取方法,其特征在于,该方法包括:对日志模板进行预处理,得到结构化、半结构化和非结构化三类日志模板;对非结构化日志模板以及半结构化日志模板中的非结构化部分进行分词和词性标注;基于词性标注的结果构建三元组规则库;基于所述三元组规则库提取日志模板中的三元组信息。2.根据权利要求1所述的方法,其特征在于,所述对日志模板进行预处理,包括:将带有请求关键字的日志模板以及日志模板中不少于预设个数的“=”的日志模板划分为结构化日志模板;除结构化日志模板之外的日志模板分为半结构化日志模板和非结构化日志模板;其中,将带有IP地址、和/或路径、和/或标签、和/或json格式的标记字符的日志模板划分为半结构化日志模板;将完全由自然语言文本组成的日志模板划分为非结构化日志模板。3.根据权利要求1或2所述的方法,其特征在于,所述半结构化日志模板中的非结构化部分,为:将半结构化日志模板中的标记字符通过正则表达式匹配删除后剩下的部分。4.根据权利要求1所述的方法,其特征在于,所述三元组表示为(S,P,O);其中,所述S表示主语;P表示谓语;O表示宾语;所述三元组表示节点S和节点O之间通过动作P产生关联,用于描述一个完整事件。5.根据权利要求4所述的方法,其特征在于,所述基于词性标注的结果构建三元组规则库,包括:基于词性的位置、类型以及部分预设词性和语态构建辅助规则和句式语法规则;其中,所述辅助规则,用于判断预设词性的前后位置以及生成三元组中的P;所述句式语法规则,用于根据所述辅助规则得到的P、词性的位置以及句式的差异生成三元组中的S和O。6.根据权利要求5所述的方法,其特征在于,所述辅助规则中与动词相关的规则提取包括以下内容:判定动词初始位置;判定动词最后位置;基于句子的语态生成P。7.根据权利要求6所述的方法,其特征在于,所述判定动词初始位置时,将动词非第三人称单数VBP/或动词第三人称单数VBZ的位置置于最前面,动词过去式VBD在动词过去分词VBN之前;如果有两个或多个动词过去式VBD且无连词,则选择最后面的一个动词过去式VBD。8.根据权利要求6所述的方法,其特征在于,所述判定动词最后位置时,基于以下一种或多种情况进行判定:动词位于句尾;动词后接介词或副词;动词后接否定词;
除上述情况外的其它情况。9.根据权利要求6所述的方法,其特征在于,所述基于句子的语态生成P,包括:对于被动语态,将动词过去分词还原成原形,从动词原形至句尾共同作为P;其中,从动词原形至句尾之间如果有模态助词,也保留;对于主动语态,由动词的初始位置和最后位置确定P;其中,若动词前存在副词或否定词修饰时,则提前动词的初始位置;若句中包含连词,则基于连词前后是否存在名词的情况确定P;当副词存在于动词后两位之后时,则P为:由动词的初始位置和最后位置确定的P再加上所述副词。10.根据权利要求5所述的方法,其特征在于,所述辅助规则中与名词相关的规则提取包括以下内容:判定名词或复合名词初始位置;判定名词或复合名词最后位置。11.根据权利要求5所述的方法,其特征在于,所述辅助规则中与形容词相关的规则提取包括:如果句中...

【专利技术属性】
技术研发人员:徐敬文余立杨晓高飞左一平王刚
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1