一种服务器告警日志描述文本的实体关系抽取方法及系统技术方案

技术编号:33268999 阅读:24 留言:0更新日期:2022-04-30 23:25
本发明专利技术公开了一种服务器告警日志描述文本的实体关系抽取方法及系统,包括:获取待抽取的服务器告警日志描述文本数据,进行依存句法分析得到每个句子的句式,判断每个句式是否符合预先确定的领域频繁核心表达式种子模板中的某个核心表达式,若是,则根据对应的核心表达式输出该句子的实体关系至第一实体关系集;若否,则利用包括领域频繁核心表达式种子模板的统计学算法进行实体关系抽取,输出到第二实体关系集;将第一实体关系集和第二实体关系集合并后得到最终的服务器告警日志描述文本数据的实体关系组。优点:充分利用服务器告警领域频繁核心表达式和统计学算法进行实体关系抽取,提高实体关系抽取的准确性,为后续构建知识图谱提供可靠来源。构建知识图谱提供可靠来源。构建知识图谱提供可靠来源。

【技术实现步骤摘要】
一种服务器告警日志描述文本的实体关系抽取方法及系统


[0001]本专利技术涉及一种服务器告警日志描述文本的实体关系抽取方法及系统,属于服务器集群故障溯源


技术介绍

[0002]云数据中心运维层次复杂,包含主机设备层、信息平台层、服务调用层,运维场景与业务强相关;云数据中心网络关系复杂,应用调用关系多,当某次业务出现故障报警时,会由于业务关联,造成大量相关的报警信息同时并发。因此,需要以当前发出的报警信息为证据,构建报警传播的知识图谱,为后续推理最可能的根部报警信息提供决策依据。
[0003]现有方法存在的缺陷:在现有的云数据中心服务器运维策略中,随着主机设备层、信息平台层、服务调用层中各自报警保护机制中设置的报警逻辑,出现大量的报警信息冗余、报警阈值设置不合理、大量关联报警信息无法分析根源的报警泛滥问题。在以往的运维中,当出现大量的关联报警信息时,则需要专业的服务器运维工程师从服务器底层逐一排查故障原因,缺乏智能的报警信息传播关系分析技术,造成大量的人力物力浪费。

技术实现思路

[0004]本专利技术所要解决的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种服务器告警日志描述文本的实体关系抽取方法,其特征在于,包括:获取待抽取的服务器告警日志描述文本数据;对服务器告警日志描述文本数据中的句子进行依存句法分析,得到每个句子的句式,判断每个句式是否符合预先确定的领域频繁核心表达式种子模板中的某个核心表达式,若是,则根据对应的核心表达式输出该句子的实体关系至第一实体关系集;若否,则利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取,输出到第二实体关系集;将第一实体关系集和第二实体关系集合并后得到最终的服务器告警日志描述文本数据的实体关系组。2.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法,其特征在于,还包括:对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除无用词处理,得到预处理后的文本数据,利用预处理后的文本数据代替服务器告警日志描述文本数据进行依存句法分析。3.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法,其特征在于,所述领域频繁核心表达式种子模板的确定过程,包括:获取服务器告警日志历史描述文本;对待抽取的服务器告警日志历史描述文本数据进行复杂句子分句和去除无用词处理,得到预处理后的历史文本数据;基于依存句法分析得到的最短依存树抽取预处理后的文本数据的核心表达式,依据核心表达式中谓语动词出现的频率进行排序,选取出现频率高于设定阈值的谓语动词,得到领域频繁核心表达式集合;从领域频繁核心表达式集合中抽取一部分作为领域频繁核心表达式种子模板。4.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法,其特征在于,所述利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取,输出到第二实体关系集,包括:将所述领域频繁核心表达式种子模板作为Bootstrapping算法的种子集;将不符合的领域频繁核心表达式种子模板的句子放入到待处理集合中;分别利用依存句法分析方法和词法分析方法提取所述种子集和待处理集合中句子的词法特征和句法特征,计算种子集和待处理集合中词法特征和句法特征的相似度,取与种子集中句子相似度分数大于预设值的待处理集合中的句子加入到候选集中,该待处理集合中的句子的实体关系为与其对应的种子集中句子的实体关系;下一次迭代中将候选集新增的句子加入到上一次迭代的种子集中得到新种子集,将加入到候选集中的句子从待处理集合中剔除得到新待处理集合;再对新种子集和新待处理集合中句子的词法特征和句法特征进行相似度计算,取相似度分数大于预设值的新待处理集合中的句子加入到候选集中;不断重复迭代过程扩展候选集中的句子,直到没有新的句子产生为止,得到候选集的句子集合,通过候选集的句子集合确定第二实体关系集。5.一种服务器告警日志描述文本的实体关系抽取系统,其特征在于,包括:获取模块,用于获取待抽取的服务器告警日志描述文本数据;
预处理模块,用于对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除无用词处理,得到预处理后的文本数据;抽取模块,用于对预...

【专利技术属性】
技术研发人员:赵子岩高德荃来风刚张冰娄超吴超罗旺席丁鼎俞弦韩圣亚马超
申请(专利权)人:国网电力科学研究院有限公司南京南瑞信息通信科技有限公司国网山东省电力公司信息通信公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1