一种基于大数据的自愈规则挖掘方法及装置制造方法及图纸

技术编号:24409812 阅读:14 留言:0更新日期:2020-06-06 08:41
本发明专利技术实施例提供一种基于大数据的自愈规则挖掘方法及装置,其中,方法包括:采集业务数据、性能数据以及日志数据作为样本数据;对所述样本数据进行预处理,将所述样本数据转换为适用于数据挖掘的形式;对预处理后的样本数据进行关联规则挖掘,获得一定数量的强关联规则,每一条强关联规则中至少包括业务数据和性能数据;对所述强关联规则进行验证,若所述强关联规则必然对应异常现象出现,则将所述强关联规则作为自愈规则。本发明专利技术实施例极大程度减少对人为经验的依赖,同时减少专业人员的精力投入,节省了大量人力。

A self-healing rule mining method and device based on big data

【技术实现步骤摘要】
一种基于大数据的自愈规则挖掘方法及装置
本专利技术涉及数据挖掘
,更具体地,涉及基于大数据的自愈规则挖掘方法及装置。
技术介绍
电信行业为适应用户数不断增长,以及业务类型不断扩展,业务受理系统设计也随之发展,呈现出架构关系复杂、节点规模庞大、系统更新频繁等特点。面对如此复杂、庞大又多变的“超级”系统,运维人员仍要保持异常快速恢复的目标,是一项巨大的挑战。如何在复杂、庞大、多变的系统中快速定位细微异常并快速解决,现行主流方案是通过运维自动化方式来实现,针对此类情况的自动化方式主要采用的是自愈手段,自愈过程依赖于自动化流程驱动,其中判定自愈的规则依据是整个自愈的内核,如何制定规则目前常见的解决方式如下:方案一:引用业界通用规则,基于业界公认的运行指标信息作为依据,生成自愈规则,例如硬件的运行指标CPU使用率、内存使用率等。但目前被业界广泛认可的只有主机、网络等通用设备的规则指标,而超出这个范畴的其他异常点则是盲区,在实际应用中,往往这些盲区是异常高发点,从规则适用范围来看,引用通用规则的自愈比较片面,规则适用范围较少。方案二:采用人脑转化规则的方式,最为传统的将基于人为的经验由人工经验总结的方式转化规则,主要依赖人员的历史经验、技术能力以及总结归纳能力。但该方案对人员能力依赖较强,且人脑转化出的规则相对简单,随着系统愈发复杂庞大,从规则产出效率来看,人脑转化的规则沉淀的产出效率低下,无法跟上系统发展的步伐。方案三:采用一事一案的个性规则设计,在故障恢复后,对故障发生及处理过程重新梳理一遍,找出故障根因,并针对该故障提炼出故障特征,对其固化成自愈规则,避免出现相同的故障。该方案对超出本故障范围的其他问题无法辐射到,每个规则的个性使得其无法快速适应系统变化,规则很容易变为无效,从规则使用效果来看,随着系统的变化,规则的精准性无法保证。综上,现有的技术方案都存在严重的不足,从规则适用范围、规则产出效率、规则使用效果等方面都已无法适应当前系统维护的自愈需求。
技术实现思路
本专利技术提供一种克服上述问题或者至少部分地解决上述问题的基于大数据的自愈规则挖掘方法及装置。第一个方面,本专利技术实施例提供一种自愈规则的挖掘方法,包括:采集业务数据、性能数据以及日志数据作为样本数据;对所述样本数据进行预处理,将所述样本数据转换为适用于数据挖掘的形式;对预处理后的样本数据进行关联规则挖掘,获得一定数量的强关联规则,每一条强关联规则中至少包括业务数据和性能数据;对所述强关联规则进行验证,若所述强关联规则必然对应异常现象出现,则将所述强关联规则作为自愈规则第二个方面,本专利技术实施例提供一种自愈规则的挖掘装置,包括:样本数据获取模块,用于采集业务数据、性能数据以及日志数据作为样本数据;预处理模块,用于对所述样本数据进行预处理,将所述样本数据转换为适用于数据挖掘的形式;关联规则挖掘模块,用于对预处理后的样本数据进行关联规则挖掘,获得一定数量的强关联规则,每一条强关联规则中至少包括业务数据和性能数据;验证模块,用于对所述强关联规则进行验证,若所述强关联规则必然对应异常现象出现,则将所述强关联规则作为自愈规则。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。本专利技术实施例提供的基于大数据的自愈规则挖掘方法及装置,通过采集性能数据、日志数据和业务数据,使得采集的数据信息具有多样化的特点,不再局限于几个行业通用的基本数据,纳入业务数据,并从关联规则算法中挖掘更多数据的加载,转换为更多的规则形式应对异常,使规则的构建突破原有局限,使规则使用范围更广,此外,通过关联规则挖掘算法对样本数据进行挖掘,全过程高度自动化,规则产出效率显著提升,并且极大程度减少对人为经验的依赖,同时减少专业人员的精力投入,节省了大量人力,此外,通过对获取的强关联规则进行验证,实现了与实际需要的高度匹配,对系统异常的判定更为精准,同时随系统的持续变化,规则始终处于训练和优化的状态中,规避了规则需要人为维护的不足。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的自愈规则的挖掘方法的流程示意图;图2为本专利技术实施例提供的自愈规则的挖掘装置的结构示意图;图3为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了克服现有技术的上述问题,本专利技术实施例提供了一种自愈规则的挖掘方法,其专利技术构思为:将业务数据、性能数据和日志数据纳入挖掘范围中,不再局限与几个行业内通用的基本数据,通过关联规则挖掘出数据之间的联系,通过对挖掘出的强关联规则进行验证,判断强关联规则是否与异常现象存在必然联系,获得自愈规则。本专利技术实施例使自愈规则的构建突破原有局限,适用范围更广,实现与实际需要的高度匹配,对系统异常的判定更为精准,同时随系统的持续变化,自愈规则始终处于挖掘的状态中,规避了规则需要人为维护的不足。图1为本专利技术实施例提供的自愈规则的挖掘方法的流程示意图,如图所示,包括:S101、采集业务数据、性能数据以及日志数据作为样本数据。需要说明的是,本专利技术实施例从业务监控系统中采集业务数据,从应用主机/虚拟机中采集性能数据,从日志管理中心中采集日志数据。表1为本专利技术实施例采集的样本数据中若干关键指标的表,如表1所示,本专利技术实施例共分成三种采集类型,分别为日志数据、性能数据和业务数据,每一种采集类型具有多个指标项,而每一种指标项又由多个指标子项构成,每一个指标子项由具体的指标值进行表示。例如,日志数据中包括一个指标项:TOP5错误,表示最常出现的5种错误,该指标项包括这5种错误信息的关键字,对于每一种错误信息,通过该错误信息的关键字在每分钟出现的数量来表征。可以理解的是,表1中示出的各指标项、指标子项以及指标值仅仅是本专利技术实施例的挖掘方法中采集的样本数据中的一部分。本专利技术实施例在采样样本数据时,充分考虑用户规模与数据规模的增长,做好数据资产积累的准备,通过客户端、程序插码等方法实现多种数据源,多种方法全量采集,贯穿用户使用产品本文档来自技高网
...

【技术保护点】
1.一种自愈规则的挖掘方法,其特征在于,包括:/n采集业务数据、性能数据以及日志数据作为样本数据;/n对所述样本数据进行预处理,将所述样本数据转换为适用于数据挖掘的形式;/n对预处理后的样本数据进行关联规则挖掘,获得一定数量的强关联规则,每一条强关联规则中至少包括业务数据和性能数据;/n对所述强关联规则进行验证,若所述强关联规则必然对应异常现象出现,则将所述强关联规则作为自愈规则。/n

【技术特征摘要】
1.一种自愈规则的挖掘方法,其特征在于,包括:
采集业务数据、性能数据以及日志数据作为样本数据;
对所述样本数据进行预处理,将所述样本数据转换为适用于数据挖掘的形式;
对预处理后的样本数据进行关联规则挖掘,获得一定数量的强关联规则,每一条强关联规则中至少包括业务数据和性能数据;
对所述强关联规则进行验证,若所述强关联规则必然对应异常现象出现,则将所述强关联规则作为自愈规则。


2.根据权利要求1所述的挖掘方法,其特征在于,所述对所述样本数据进行预处理,之前还包括:
通过流式处理将采集的指标值进行标签化,并根据标签化的类型将样本数据存储在对应的数据库表中;
相应地,所述对预处理后的样本数据进行关联规则挖掘,具体为:
根据用户确定的标签,从所述确定的标签对应的数据库表中提取样本数据进行关联规则挖掘。


3.根据权利要求1所述的挖掘方法,其特征在于,所述关联规则挖掘的算法为Apriori算法。


4.根据权利要求1所述的挖掘方法,其特征在于,所述对所述强关联规则进行验证,具体为采用随机森林模型对强关联规则进行验证。


5.根据权利要求1所述的挖掘方法,其特征在于,所述对所述样本数据进行预处理,具体为:
对所述样本数据进行数据清理,包括:删除重复数据和无关数据、对噪声数据进行平滑处理以及对异常数据和缺失数据进行插补;
对数据清理后的样本数据进行维归约处理,舍弃的样本数据;
通过平滑聚集和数据概化的方式将维归约处理后剩余的样本数据转换为适用...

【专利技术属性】
技术研发人员:王璇舒锋戴安妮竺士杰
申请(专利权)人:中国移动通信集团浙江有限公司中国移动通信集团有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1