基于互联网日志数据的软件缺陷故障识别方法和系统技术方案

技术编号：15068899 阅读：104 留言：0更新日期：2017-04-06 16:32

本发明专利技术公布了一种基于互联网日志数据的软件缺陷故障识别方法和系统，针对互联网源系统日志数据和用户系统源日志数据，将互联网源系统日志数据作为训练集并从中提取特征，通过机器学习或相似度匹配生成软件缺陷故障日志识别预测模型；针对用户系统源日志数据，分析识别得到其中表征软件缺陷故障的日志片段，从而得到针对用户系统日志的软件缺陷故障类型。云计算系统故障识别系统包括多线日志收集模块、互联网源系统日志分类器和在线日志分析与故障识别模块。本发明专利技术可实现从大量日志信息识别由软件缺陷导致的故障，快速定位故障原因，识别运行时故障并诊断故障类型，提高云计算系统的可靠性和可用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于云计算
，具体涉及一种基于互联网日志数据的软件缺陷故障识别方法和系统，可实现对基于开源软件构建的云计算系统进行故障识别与诊断，提高云计算系统的可靠性和可用性。
技术介绍
云计算以其按需使用的消费模式，逐渐被广泛应用于金融、商务等各个领域，云计算环境下系统的高可用性也日益成为云计算技术走向成熟的关键。然而，由于云计算系统规模逐渐扩大，异构性逐渐增强，云计算系统往往因为各种原因导致失效，如硬件故障，配置错误以及软件缺陷等，这成为威胁云计算系统可用性和可靠性的关键因素之一。随着开源软件的广泛而迅速的使用，软件缺陷成为导致云计算系统故障的主要原因之一。一方面，软件缺陷隐藏在软件源代码中，传统的故障修复策略如重启，备份等无法达到修复效果，因此软件缺陷的定位和修复工作十分复杂，会耗费大量的人力物力。另一方面，随着当今软件规模的扩大以及分布式的特性，软件缺陷的发生率越来越高，复杂程度也逐步增加。因此，如何从众多种类的故障中识别出软件缺陷导致的故障十分必要。日志是最直接表征系统运行状况的信息，具有重要的价值。通常情况下，系统运维人员依靠人工查看系统运行日志，以期跟踪系统状态以及发现系统故障。现有技术主要关注日志的收集，存储和基本挖掘，用于从庞大的日志集中提取系统异常状态的日志序列，并以此类序列作为特征对系统故障进行预测和诊断。迄今为止，尚未有日志挖掘技术可以自动化对故障原因进行进一步诊断，特别是识别出由软件缺...
基于互联网日志数据的软件缺陷故障识别方法和系统

【技术保护点】
一种基于互联网日志数据的软件缺陷故障识别方法，针对互联网源系统日志数据和用户系统源日志数据，将互联网源系统日志数据作为训练集并从中提取特征，通过机器学习或相似度匹配生成软件缺陷故障日志识别预测模型；针对用户系统源日志数据，根据所述软件缺陷故障日志识别预测模型分析识别得到其中表征软件缺陷故障的日志片段，从而得到用户系统日志表征的软件缺陷故障类型；具体包括如下步骤：1)收集日志数据，日志数据包括互联网源系统日志数据和用户系统源日志数据：1A)从互联网中收集多种来源的互联网日志，对这些日志进行清洗、过滤和存储；多种来源的互联网日志包括软件缺陷库中的日志数据，问答网站的日志数据，邮件列表中的日志数据等；1B)收集用户系统源日志数据，并对其进行预处理，包括：初步清洁、整理和结构化存储；2)分别抽取互联网源系统日志数据和用户系统源日志数据的文本特征并提取特征向量；3)基于互联网源系统日志数据的文本特征向量，通过离线方法建立软件缺陷故障日志识别预测模型；4)根据软件缺陷故障日志识别预测模型，对用户系统源日志数据的文本特征向量通过分类和标示进行在线识别，得到用户系统日志片段类型；5)收集用户系统日志片...

【技术特征摘要】
1.一种基于互联网日志数据的软件缺陷故障识别方法，针对互联网源系统日志数据和用
户系统源日志数据，将互联网源系统日志数据作为训练集并从中提取特征，通过机器学习或
相似度匹配生成软件缺陷故障日志识别预测模型；针对用户系统源日志数据，根据所述软件
缺陷故障日志识别预测模型分析识别得到其中表征软件缺陷故障的日志片段，从而得到用户
系统日志表征的软件缺陷故障类型；具体包括如下步骤：
1)收集日志数据，日志数据包括互联网源系统日志数据和用户系统源日志数据：
1A)从互联网中收集多种来源的互联网日志，对这些日志进行清洗、过滤和存储；
多种来源的互联网日志包括软件缺陷库中的日志数据，问答网站的日志数据，邮件列表
中的日志数据等；
1B)收集用户系统源日志数据，并对其进行预处理，包括：初步清洁、整理和结构化存
储；
2)分别抽取互联网源系统日志数据和用户系统源日志数据的文本特征并提取特征向量；
3)基于互联网源系统日志数据的文本特征向量，通过离线方法建立软件缺陷故障日志识
别预测模型；
4)根据软件缺陷故障日志识别预测模型，对用户系统源日志数据的文本特征向量通过分
类和标示进行在线识别，得到用户系统日志片段类型；
5)收集用户系统日志片段类型和在线识别过程的中间结果，对用户系统日志片段进行进
一步标识，得到相关软件缺陷报告链接并进行标识结果的有效性验证...

【专利技术属性】
技术研发人员：李影，贾统，吴中海，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人