当前位置: 首页 > 专利查询>北京大学专利>正文

基于互联网日志数据的软件缺陷故障识别方法和系统技术方案

技术编号:15068899 阅读:104 留言:0更新日期:2017-04-06 16:32
本发明专利技术公布了一种基于互联网日志数据的软件缺陷故障识别方法和系统,针对互联网源系统日志数据和用户系统源日志数据,将互联网源系统日志数据作为训练集并从中提取特征,通过机器学习或相似度匹配生成软件缺陷故障日志识别预测模型;针对用户系统源日志数据,分析识别得到其中表征软件缺陷故障的日志片段,从而得到针对用户系统日志的软件缺陷故障类型。云计算系统故障识别系统包括多线日志收集模块、互联网源系统日志分类器和在线日志分析与故障识别模块。本发明专利技术可实现从大量日志信息识别由软件缺陷导致的故障,快速定位故障原因,识别运行时故障并诊断故障类型,提高云计算系统的可靠性和可用性。

【技术实现步骤摘要】

本专利技术属于云计算
,具体涉及一种基于互联网日志数据的软件缺陷故障识别方法和系统,可实现对基于开源软件构建的云计算系统进行故障识别与诊断,提高云计算系统的可靠性和可用性。
技术介绍
云计算以其按需使用的消费模式,逐渐被广泛应用于金融、商务等各个领域,云计算环境下系统的高可用性也日益成为云计算技术走向成熟的关键。然而,由于云计算系统规模逐渐扩大,异构性逐渐增强,云计算系统往往因为各种原因导致失效,如硬件故障,配置错误以及软件缺陷等,这成为威胁云计算系统可用性和可靠性的关键因素之一。随着开源软件的广泛而迅速的使用,软件缺陷成为导致云计算系统故障的主要原因之一。一方面,软件缺陷隐藏在软件源代码中,传统的故障修复策略如重启,备份等无法达到修复效果,因此软件缺陷的定位和修复工作十分复杂,会耗费大量的人力物力。另一方面,随着当今软件规模的扩大以及分布式的特性,软件缺陷的发生率越来越高,复杂程度也逐步增加。因此,如何从众多种类的故障中识别出软件缺陷导致的故障十分必要。日志是最直接表征系统运行状况的信息,具有重要的价值。通常情况下,系统运维人员依靠人工查看系统运行日志,以期跟踪系统状态以及发现系统故障。现有技术主要关注日志的收集,存储和基本挖掘,用于从庞大的日志集中提取系统异常状态的日志序列,并以此类序列作为特征对系统故障进行预测和诊断。迄今为止,尚未有日志挖掘技术可以自动化对故障原因进行进一步诊断,特别是识别出由软件缺陷引发的故障类型。与此同时,一方面,云计算系统自身的特点使得其日志信息及其丰富且随着系统的运行其规模快速增加;另一方面,即使是借助自动化的故障识别工具,也无法避免系统管理人员和运营人员需要一定程度的人工查看海量的日志数据,并从中探查故障原因,特别地,软件缺陷导致的系统故障其探查难度高,更加难以快速定位和修复。这带来海量的运营成本,对云计算环境上层服务的可靠性和可用性产生巨大影响。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种基于互联网日志数据的软件缺陷故障识别方法和系统,利用互联网中海量的日志数据,将云计算运行系统与互联网建立关联关系,通过自动识别获取云计算系统故障并探查故障原因,特别区分出软件缺陷导致的故障,以提高云计算系统的可用性和可靠性。本专利技术的核心是:首先,本专利技术提供的基于互联网日志数据的软件缺陷故障识别方法和系统的输入为互联网日志数据,主要包括开源软件缺陷库和问答网站,极大拓展了现有技术的日志数据源;其次,本专利技术创造性地将日志信息作为云计算系统与互联网知识的交集和连接,以此为基础使用互联网中的技术人员针对系统故障探查和分析知识,对云计算系统进行自动化故障探查与诊断;最后,本专利技术输出为已标识的日志集,包括软件缺陷故障日志等,用以帮助系统运维人员定位故障类型和原因。本专利技术基于如下分析研究结果:首先,开源软件具有开放性,公开性等特征。任何人都可以在开源软件社区交流讨论,提交软件缺陷以及个人的代码分支。因此,开源软件社区往往积累的大量的软件运行信息,软件缺陷信息以及故障解决方案等。当今,如果开发人员或运营人员遇到问题的时候,他们往往会进入问答网站,如StackOverFlow等寻求帮助,与此同时,许多资深的软件开发人员都愿意在问答网站分享经验帮助他人。这样,问答网站中同样积累了大量的软件故障信息和解决方案等。其次,根据数据分析发现,不论是开源软件社区还是问答网站,人们在讨论问题时,往往会涉及问题或故障的日志,并以此作为描述问题或故障的方法。因此,日志数据通常表征某一个故障,例如,在一个缺陷报告中包含异常日志,那么当某系统运行时产生相似的异常日志时,有理由认为系统此时的故障极有可能与该缺陷有关;如果某一个问答网站中的问题或者某用户问题邮件包含相关日志时,那么当某系统运行时出现相似日志数据时,在故障识别和修复时很大程度上可以借鉴该问题相关的解决方法。因此,日志不仅可以源自系统自动产生的反映系统运行状态的数据,也可以源自开发人员所发布的缺陷报告及缺陷修复报告数据,更可能源自互联网问答网站上基于庞大知识库的交互数据。因此,日志挖掘成为系统故障识别与预测的重要方法之一。本专利技术提供的技术方案是:一种基于互联网日志数据的软件缺陷故障识别方法,针对互联网源系统日志数据和用户系统源日志数据,将互联网源系统日志数据作为训练集并从中提取特征,通过机器学习或相似度匹配生成软件缺陷故障日志识别预测模型;针对用户系统源日志数据,分析识别得到其中表征软件缺陷故障的日志片段,从而得到针对用户系统日志的软件缺陷故障类型;具体包括如下步骤:1)收集日志数据,日志数据包括互联网源系统日志数据和用户系统源日志数据:1A)从互联网中收集多种来源的互联网日志,对这些日志进行清洗、过滤和存储;多种来源的互联网日志包括软件缺陷库中的日志数据,问答网站的日志数据,邮件列表中的日志数据、开源软件社区等;1B)收集用户系统源日志数据,并对其进行预处理,包括:初步清洁、整理和结构化存储;2)分别抽取互联网源系统日志数据和用户系统源日志数据的文本特征并提取特征向量;3)基于互联网源系统日志数据的文本特征向量,通过离线方法建立软件缺陷故障日志识别预测模型;4)根据软件缺陷故障日志识别预测模型,对用户系统源日志数据的文本特征向量进行在线识别,包括分类和标识,得到用户系统日志片段类型;软件缺陷故障日志识别得到的用户系统日志片段类型可分为软件缺陷故障日志片段、非软件缺陷故障日志片段以及正常运行日志片段。5)收集用户系统日志片段类型和在线识别过程的中间结果,对用户系统日志片段进行进一步标识,包括相关软件缺陷报告链接等,并进行标识结果的有效性验证。针对上述基于互联网日志数据的软件缺陷故障识别方法,进一步地,可将在线日志分析与故障识别模块的软件缺陷故障识别结果进行展示,展示已标识类别的用户系统日志片段,包括软件缺陷故障日志片段,非软件缺陷日志片段和正常运行日志片段。针对上述基于互联网日志数据的软件缺陷故障识别方法,进一步地,步骤2)采用基于文本挖掘的特征提取方法,基于日志信息的词汇序列,提取日志数据的文本特征,得到特征向量。针对上述基于互联网日志数据的软件缺陷故障识别方法,进一步地,步骤3)基于机器学习或相似度匹配,通过离线训练方法建立得到软件缺陷故障日志识别预测模型。针对上述基于互联网日志数据的软件缺陷故障识别方法,进一步地,所述基于机器学习通过离线训练方法建立得到软件缺陷故障日志识别预测模型,具体包括如下步骤:本文档来自技高网
...
基于互联网日志数据的软件缺陷故障识别方法和系统

【技术保护点】
一种基于互联网日志数据的软件缺陷故障识别方法,针对互联网源系统日志数据和用户系统源日志数据,将互联网源系统日志数据作为训练集并从中提取特征,通过机器学习或相似度匹配生成软件缺陷故障日志识别预测模型;针对用户系统源日志数据,根据所述软件缺陷故障日志识别预测模型分析识别得到其中表征软件缺陷故障的日志片段,从而得到用户系统日志表征的软件缺陷故障类型;具体包括如下步骤:1)收集日志数据,日志数据包括互联网源系统日志数据和用户系统源日志数据:1A)从互联网中收集多种来源的互联网日志,对这些日志进行清洗、过滤和存储;多种来源的互联网日志包括软件缺陷库中的日志数据,问答网站的日志数据,邮件列表中的日志数据等;1B)收集用户系统源日志数据,并对其进行预处理,包括:初步清洁、整理和结构化存储;2)分别抽取互联网源系统日志数据和用户系统源日志数据的文本特征并提取特征向量;3)基于互联网源系统日志数据的文本特征向量,通过离线方法建立软件缺陷故障日志识别预测模型;4)根据软件缺陷故障日志识别预测模型,对用户系统源日志数据的文本特征向量通过分类和标示进行在线识别,得到用户系统日志片段类型;5)收集用户系统日志片段类型和在线识别过程的中间结果,对用户系统日志片段进行进一步标识,得到相关软件缺陷报告链接并进行标识结果的有效性验证。...

【技术特征摘要】
1.一种基于互联网日志数据的软件缺陷故障识别方法,针对互联网源系统日志数据和用
户系统源日志数据,将互联网源系统日志数据作为训练集并从中提取特征,通过机器学习或
相似度匹配生成软件缺陷故障日志识别预测模型;针对用户系统源日志数据,根据所述软件
缺陷故障日志识别预测模型分析识别得到其中表征软件缺陷故障的日志片段,从而得到用户
系统日志表征的软件缺陷故障类型;具体包括如下步骤:
1)收集日志数据,日志数据包括互联网源系统日志数据和用户系统源日志数据:
1A)从互联网中收集多种来源的互联网日志,对这些日志进行清洗、过滤和存储;
多种来源的互联网日志包括软件缺陷库中的日志数据,问答网站的日志数据,邮件列表
中的日志数据等;
1B)收集用户系统源日志数据,并对其进行预处理,包括:初步清洁、整理和结构化存
储;
2)分别抽取互联网源系统日志数据和用户系统源日志数据的文本特征并提取特征向量;
3)基于互联网源系统日志数据的文本特征向量,通过离线方法建立软件缺陷故障日志识
别预测模型;
4)根据软件缺陷故障日志识别预测模型,对用户系统源日志数据的文本特征向量通过分
类和标示进行在线识别,得到用户系统日志片段类型;
5)收集用户系统日志片段类型和在线识别过程的中间结果,对用户系统日志片段进行进
一步标识,得到相关软件缺陷报告链接并进行标识结果的有效性验证...

【专利技术属性】
技术研发人员:李影贾统吴中海
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1