一种异常根因定位方法及装置制造方法及图纸

技术编号:27751360 阅读:18 留言:0更新日期:2021-03-19 13:47
本发明专利技术提供一种异常根因定位方法及装置,该方法包括:对目标业务指标进行监测,并确定监测到的所述目标业务指标是否满足异常条件;当确定监测到的所述目标业务指标满足异常条件时,依据trace数据确定各网元的异常分数;依据所述各网元的异常分数构建待查异常网元列表;分别对所述待查异常网元列表中各待查异常网元的KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数;依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因。应用本发明专利技术实施例可以提高异常根因定位的效率和准确率。

【技术实现步骤摘要】
一种异常根因定位方法及装置
本专利技术涉及云计算
,尤其涉及一种异常根因定位方法及装置。
技术介绍
随着云计算的快速发展,越来越多的系统转移到了云上,实现了软件和硬件资源共享,从而减少了系统部署的软硬件成本。但随之而来的是,由大量的组件和复杂的交互带来的各种问题,特别是多租户的云平台,资源竞争会造成性能下降等问题。通常云系统会有监控中心随时监控系统层面指标的异常,当发现系统层面的异常,会有管理人员对异常根因进行定位,而异常根因的手工定位耗时耗力。目前,为了实现异常根因自动定位,常用的方法包括论文《LightweightandAdaptiveServiceAPIPerformanceMonitoringinHighlyDynamicCloudEnvironment》中介绍的方法,通过流量关联的方法获取服务之间依赖关系,而后通过PC-Algorithm算法(一种因果分析算法)获取各KPI(KeyPerformanceIndictaor,关键性监控数据)指标的因果关系,构建故障因果图,从而故障发生时,沿着故障因果图找到根因的指标。然而实践发现,上述异常根因定位方案中,需要依据各个模块的流量数据实现异常根因定位,而很多场景中,各模块的流量数据通常无法采集,导致无法使用该方案实现异常根因定位;此外,上述方案中建立故障因果图时未考虑时序,故障因果图建立的准确性不足,导致异常根因定位准确性也较低。
技术实现思路
本专利技术提供一种异常根因定位方法及装置,以解决传统异常根因定位准确性低的问题。根据本专利技术实施例的第一方面,提供一种异常根因定位方法,包括:对目标业务指标进行监测,并确定监测到的所述目标业务指标是否满足异常条件;当确定监测到的所述目标业务指标满足异常条件时,依据追踪trace数据确定各网元的异常分数;依据所述各网元的异常分数构建待查异常网元列表;分别对所述待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数;依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因。根据本专利技术实施例的第二方面,提供一种异常根因定位装置,包括:监测单元,用于对目标业务指标进行监测,并确定监测到的所述目标业务指标是否满足异常条件;第一确定单元,用于当确定监测到的所述目标业务指标满足异常条件时,依据追踪trace数据确定各网元的异常分数;构建单元,用于依据所述各网元的异常分数构建待查异常网元列表;第二确定单元,用于分别对所述待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数;定位单元,用于依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因。根据本专利技术实施例的第三方面,提供一种电子设备,该电子设备包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现第一方面提供的异常根因定位方法。应用本专利技术公开的技术方案,通过对目标业务指标进行监测,并确定监测到的目标业务指标是否满足异常条件,当确定监测到的所述目标业务指标满足异常条件时,依据trace数据确定各网元的异常分数,依据各网元的异常分数构建待查异常网元列表,分别对待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定各待查异常网元的各KPI指标的异常分数,进而,依据各待查异常网元的异常分数,以及各待查异常网元的各KPI指标的异常分数,定位异常根因,提高了异常根因定位的效率和准确率。附图说明图1是本专利技术实施例提供的一种异常根因定位方法的流程示意图;图2是本专利技术实施例提供的一种调用拓扑的示意图;图3是本专利技术实施例提供的一种trace数据的示意图;图4是本专利技术实施例提供的一种网元调用异常分数的示意图;图5是本专利技术实施例提供的一种肘部法则的示意图;图6是本专利技术实施例提供的一种异常根因定位装置的结构示意图;图7是本专利技术实施例提供的一种图6所示装置的硬件结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术实施例中技术方案作进一步详细的说明。请参见图1,为本专利技术实施例提供的一种异常根因定位方法的流程示意图,如图1所示,该异常根因定位方法可以包括以下步骤:需要说明的是,本专利技术实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本专利技术实施例的实施过程构成任何限定。步骤101、对目标业务指标进行监测,并确定监测到的目标业务指标是否满足异常条件。本专利技术实施例中,目标业务指标可以包括黄金业务指标中的一个或多个。黄金业务指标可以包括但不限于服务响应时间(如打开某一网页的时间)、请求个数(预设单位时间内接收到的请求个数)以及请求成功率(成功响应的请求数量占请求总数的比例)等业务指标。考虑到黄金业务指标可以很好地表征云系统(如微服务应用系统,下文中简称系统)的运行状态,通过对黄金业务指标进行监测可以及时发现系统异常(如故障)。相应地,可以对目标业务指标进行监测,依据监测到的目标业务指标确定目标业务指标是否满足异常条件,以确定系统是否存在异常。在一个示例中,目标业务指标包括服务响应时间和请求成功率。步骤101中,异常条件,可以包括:服务响应时间大于预设时间阈值,或/和,请求成功率低于预设成功率阈值。示例性的,以目标业务指标包括服务响应时间和请求成功率为例。考虑到系统正常运行时,服务响应时间通常会比较短(一般为毫秒级),请求成功率也会比较高(对于成功率要求较高的场景,会要求成功率为100%),而当服务响应时间变长或者请求成功率降低时,通常表明系统存在异常。相应地,可以通过对服务响应时间和请求成功率进行监测,依据监测到的服务响应时间和请求成功率,确定服务器响应时间和请求成功率是否满足异常条件。当服务响应时间大于预设时间阈值(可以根据具体场景设定),或/和,请求成功率低于预设成功率阈值(可以根据具体场景设定,如100%或99%等)时,确定目标业务指标满足异常条件。步骤102、当确定监测到的目标业务指标满足异常条件时,依据trace数据确定各网元的异常分数。本专利技术实施例中,当确定监测到的目标业务指标满足异常条件时,需要找到有问题的网元,以便进行异常根因定位。为了找到存在问题的网元,可以依据trace数据,确定请求处理过程中,请求涉及的各网元的处理时间,并依据各网元的处理时间确定各网元的异常分数。其中,网元的异本文档来自技高网
...

【技术保护点】
1.一种异常根因定位方法,其特征在于,包括:/n对目标业务指标进行监测,并确定监测到的所述目标业务指标是否满足异常条件;/n当确定监测到的所述目标业务指标满足异常条件时,依据追踪trace数据确定各网元的异常分数;/n依据所述各网元的异常分数构建待查异常网元列表;/n分别对所述待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数;/n依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因。/n

【技术特征摘要】
1.一种异常根因定位方法,其特征在于,包括:
对目标业务指标进行监测,并确定监测到的所述目标业务指标是否满足异常条件;
当确定监测到的所述目标业务指标满足异常条件时,依据追踪trace数据确定各网元的异常分数;
依据所述各网元的异常分数构建待查异常网元列表;
分别对所述待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数;
依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因。


2.根据权利要求1所述的方法,其特征在于,所述目标业务指标包括服务响应时间和请求成功率;
所述异常条件,包括:
服务响应时间大于预设时间阈值,或/和,请求成功率低于预设成功率阈值。


3.根据权利要求1所述的方法,其特征在于,所述依据trace数据确定各网元的异常分数,包括:
对于任一网元,依据目标统计周期内的trace数据,分别确定各网元对该网元进行调用的响应时间elapsedTime;
依据各网元对该网元进行调用的elapsedTime,确定各网元对该网元进行调用的异常分数;
依据所述各网元对该网元进行调用的异常分数,确定该网元的异常分数。


4.根据权利要求3所述的方法,其特征在于,该网元的异常分数为所述各网元对该网元进行调用的异常分数的中位值。


5.根据权利要求3所述的方法,其特征在于,所述依据所述各网元的异常分数构建待查异常网元列表,包括:
对所述各网元的异常分数按照从高到低的顺序排序;
以排序靠前的n个网元作为待查异常网元,构建待查异常网元列表,n为正整数。


6.根据权利要求3所述的方法,其特征在于,所述依据所述各网元的异常分数构建待查异常网元列表之后,还包括:
依据所述目标统计周期内的trace数据,确定各网元在所述目标统计周期内的请求失败率;
为请求失败率高于预设失败率阈值的网元设置缺省异常分数,并加入所述待查异常网元列表。


7.根据权利要求1所述的方法,其特征在于,所述分别对所述待查异常网元列表中各待查异常网元的KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数,包括:
对于任一待查异常网元的任一KPI指标,依据该KPI指标的标准分数,以及该KPI指标的优先级对应的权重,确定该KPI指标的异常分数。


8.根据权利要求1所述的方法,其特征在于,所述依据所述各待查异常网元的异常分数,以及所述各待查异常网元...

【专利技术属性】
技术研发人员:张闯敖襄桥
申请(专利权)人:新华三人工智能科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1