【技术实现步骤摘要】
一种日志关键信息提取方法、装置和计算机可读存储介质
[0001]本专利技术涉及移动通信
,尤其涉及一种日志关键信息提取方法、装置和计算机可读存储介质。
技术介绍
[0002]目前,大部分日志关键信息提取技术能够较好地提取出结构化日志的关键信息,而对于一些完全由自然文本构成的非结构化日志,目前仅能做到基于一些特定词或特定部分的提取分析,对日志内容的提取具有局限性且限制了能够检测到的异常类型。由于日志能够反馈较多的隐患和告警信息,一旦发现异常或出现告警,相关技术可以定位到特定的异常日志,快速地找到该位置并报告错误类型,却很难做到进一步报告故障原因以及出错日志的信息,只能根据定位返回研究出错日志的问题所在。
技术实现思路
[0003]有鉴于此,本专利技术实施例期望提供一种日志关键信息提取方法、装置和计算机可读存储介质。
[0004]为达到上述目的,本专利技术实施例的技术方案是这样实现的:
[0005]本专利技术实施例提供了一种日志关键信息提取方法,该方法包括:
[0006]对日志模板进行预处理,得到结构化、半结构化和非结构化三类日志模板;
[0007]对非结构化日志模板以及半结构化日志模板中的非结构化部分进行分词和词性标注;
[0008]基于词性标注的结果构建三元组规则库;
[0009]基于所述三元组规则库提取日志模板中的三元组信息。
[0010]其中,所述对日志模板进行预处理,包括:
[0011]将带有请求关键字的日志模板以及日志模板中 ...
【技术保护点】
【技术特征摘要】
1.一种日志关键信息提取方法,其特征在于,该方法包括:对日志模板进行预处理,得到结构化、半结构化和非结构化三类日志模板;对非结构化日志模板以及半结构化日志模板中的非结构化部分进行分词和词性标注;基于词性标注的结果构建三元组规则库;基于所述三元组规则库提取日志模板中的三元组信息。2.根据权利要求1所述的方法,其特征在于,所述对日志模板进行预处理,包括:将带有请求关键字的日志模板以及日志模板中不少于预设个数的“=”的日志模板划分为结构化日志模板;除结构化日志模板之外的日志模板分为半结构化日志模板和非结构化日志模板;其中,将带有IP地址、和/或路径、和/或标签、和/或json格式的标记字符的日志模板划分为半结构化日志模板;将完全由自然语言文本组成的日志模板划分为非结构化日志模板。3.根据权利要求1或2所述的方法,其特征在于,所述半结构化日志模板中的非结构化部分,为:将半结构化日志模板中的标记字符通过正则表达式匹配删除后剩下的部分。4.根据权利要求1所述的方法,其特征在于,所述三元组表示为(S,P,O);其中,所述S表示主语;P表示谓语;O表示宾语;所述三元组表示节点S和节点O之间通过动作P产生关联,用于描述一个完整事件。5.根据权利要求4所述的方法,其特征在于,所述基于词性标注的结果构建三元组规则库,包括:基于词性的位置、类型以及部分预设词性和语态构建辅助规则和句式语法规则;其中,所述辅助规则,用于判断预设词性的前后位置以及生成三元组中的P;所述句式语法规则,用于根据所述辅助规则得到的P、词性的位置以及句式的差异生成三元组中的S和O。6.根据权利要求5所述的方法,其特征在于,所述辅助规则中与动词相关的规则提取包括以下内容:判定动词初始位置;判定动词最后位置;基于句子的语态生成P。7.根据权利要求6所述的方法,其特征在于,所述判定动词初始位置时,将动词非第三人称单数VBP/或动词第三人称单数VBZ的位置置于最前面,动词过去式VBD在动词过去分词VBN之前;如果有两个或多个动词过去式VBD且无连词,则选择最后面的一个动词过去式VBD。8.根据权利要求6所述的方法,其特征在于,所述判定动词最后位置时,基于以下一种或多种情况进行判定:动词位于句尾;动词后接介词或副词;动词后接否定词;
除上述情况外的其它情况。9.根据权利要求6所述的方法,其特征在于,所述基于句子的语态生成P,包括:对于被动语态,将动词过去分词还原成原形,从动词原形至句尾共同作为P;其中,从动词原形至句尾之间如果有模态助词,也保留;对于主动语态,由动词的初始位置和最后位置确定P;其中,若动词前存在副词或否定词修饰时,则提前动词的初始位置;若句中包含连词,则基于连词前后是否存在名词的情况确定P;当副词存在于动词后两位之后时,则P为:由动词的初始位置和最后位置确定的P再加上所述副词。10.根据权利要求5所述的方法,其特征在于,所述辅助规则中与名词相关的规则提取包括以下内容:判定名词或复合名词初始位置;判定名词或复合名词最后位置。11.根据权利要求5所述的方法,其特征在于,所述辅助规则中与形容词相关的规则提取包括:如果句中...
【专利技术属性】
技术研发人员:徐敬文,余立,杨晓,高飞,左一平,王刚,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。