本发明专利技术公开了一种大数据平台的监控方法及装置,该方法包括:先获取大数据平台中的基本信息和历史告警链路集;然后提取所述基本信息中的异常信息;接着在所述历史告警链路集中确定出包含所述异常信息的第一告警链路;最后基于所述第一告警链路进行预警,实现了对大数据平台中未发生的故障进行预测,提升了用户体验。验。验。
【技术实现步骤摘要】
一种大数据平台的监控方法及装置
[0001]本专利技术属于计算机
,具体涉及一种大数据平台的监控方法及装置。
技术介绍
[0002]大数据的本质是对海量数据进行存储和分析,面对庞大的数据和复杂的处理流程,一些异常总归是不可避免的,而大数据平台监控则是在碰到一些异常,例如机器故障、组件故障和数据异常等场景时,能及时通知到相关负责人,让相关人员及时介入,降低故障带来的不利影响。
[0003]现有的大数据平台监控主要包括采集、存储、展示和告警,但现有技术中存在如下缺点:1、采集的数据较多时,给存储带来挑战,同时也提高了存储成本;2、现有的告警流程为来一次异常便发送一次告警,在大数据复杂的运行场景下,“雪崩”现象很常见,会引发频繁告警,在一个异常引发其他异常的情况下会多次告警;3、不能对未发生的故障进行预测。
[0004]因此,如何对大数据平台未发生的故障进行预测,提升告警准确度,是本领域技术人员有待解决的技术问题。
技术实现思路
[0005]本专利技术的目的是为了解决现有技术中大数据平台监控中未发生故障不能进行预测的技术问题。
[0006]为实现上述技术目的,一方面,本专利技术提供了一种大数据平台的监控方法,该方法包括:
[0007]获取大数据平台中的基本信息和历史告警链路集;
[0008]提取所述基本信息中的异常信息;
[0009]在所述历史告警链路集中确定出包含所述异常信息的第一告警链路;
[0010]基于所述第一告警链路进行预警。
[0011]进一步地,获取所述基本信息后还包括对所述基本信息进行过滤,并将过滤后的基本信息存储在所述大数据平台中。
[0012]进一步地,所述方法还包括:
[0013]接收告警事件;
[0014]根据预设时间周期、所述告警事件的状态和所述告警事件的时间顺序确定所述告警事件的队列,所述队列包括第一队列和第二队列,所述第一队列的优先级高于所述第二队列;
[0015]若所述第二队列中的告警事件为所述第一队列中告警事件所引发,则将所述第二队列中的告警事件进行收敛,并将所述第一队列中位于同一告警链路的告警事件进行聚合后进行发送,若所述第二队列中的告警事件不为所述第一队列中告警事件所引发,则将所述第一队列中位于同一告警链路中的告警事件进行聚合后发送,并将所述第二队列中位于同一告警链路中的告警事件进行聚合后发送。
[0016]进一步地,所述方法还包括对所述异常信息进行定期清理。
[0017]另一方面,本专利技术还提供了一种大数据平台的监控装置,所述装置包括:
[0018]获取模块,用于获取大数据平台中的基本信息和历史告警链路集;
[0019]提取模块,用于提取所述基本信息中的异常信息;
[0020]确定模块,用于在所述历史告警链路集中确定出包含所述异常信息的第一告警链路;
[0021]预警模块,用于基于所述第一告警链路进行预警。
[0022]进一步地,所述装置还包括过滤模块,具体用于对所述基本信息进行过滤,并将过滤后的基本信息存储在所述大数据平台中。
[0023]进一步地,所述装置还包括告警模块,具体用于:
[0024]接收告警事件;
[0025]根据预设时间周期、所述告警事件的状态和所述告警事件的时间顺序确定所述告警事件的队列,所述队列包括第一队列和第二队列,所述第一队列的优先级高于所述第二队列;
[0026]若所述第二队列中的告警事件为所述第一队列中告警事件所引发,则将所述第二队列中的告警事件进行收敛,并将所述第一队列中位于同一告警链路的告警事件进行聚合后进行发送,若所述第二队列中的告警事件不为所述第一队列中告警事件所引发,则将所述第一队列中位于同一告警链路中的告警事件进行聚合后发送,并将所述第二队列中位于同一告警链路中的告警事件进行聚合后发送。
[0027]进一步地,所述装置还包括清理模块,具体用于对所述异常信息进行定期清理。
[0028]本专利技术提供的一种大数据平台的监控方法及装置,与现有技术相比,本方法先获取大数据平台中的基本信息和历史告警链路集;然后提取所述基本信息中的异常信息;接着在所述历史告警链路集中确定出包含所述异常信息的第一告警链路;最后基于所述第一告警链路进行预警,实现了对大数据平台中未发生的故障进行预测,提升了用户体验。
附图说明
[0029]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1所示为本说明书实施例提供的大数据平台的监控方法的流程示意图;
[0031]图2所示为本说明书实施例提供的大数据平台的监控装置的结构示意图;
[0032]图3所示为本说明书实施例提供的大数据平台的监控服务器的硬件结构框图。
具体实施方式
[0033]为了使本领域普通技术人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护
的范围。
[0034]如图1所示为本说明实施例提供的大数据平台的监控方法的流程示意图,虽然本说明提供了如下实施例或附图中所示的方法操作步骤或装置结构,但基于常规或无需创造性劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元,在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。
[0035]本说明实施例中提供的大数据平台的监控方法可以应用在客户端和服务器等终端设备中,如图1所示,所述方法具体包括如下步骤:
[0036]步骤S101、获取大数据平台中的基本信息和历史告警链路集。
[0037]具体的,获取基本信息是通过开源组件进行进行获取,例如Tclleccter(收集器)等收集各节点的各类信息,还针对大数据平台运行状况相关的信息进行手机,组合成所需的基本信息,同时获取大数据平台中日志模块中的历史告警信息,从该历史告警信息中获取历史告警链路集,告警链路实质上为最先出现的故障导致的后续发生故障的链路,例如:机器坏盘
‑
任务失败
‑
下游失败
‑
任务延迟,另外,所述方法还包括对所述异常信息进行定期清理。
...
【技术保护点】
【技术特征摘要】
1.一种大数据平台的监控方法,其特征在于,所述方法包括:获取大数据平台中的基本信息和历史告警链路集;提取所述基本信息中的异常信息;在所述历史告警链路集中确定出包含所述异常信息的第一告警链路;基于所述第一告警链路进行预警。2.如权利要求1所述的大数据平台的监控方法,其特征在于,获取所述基本信息后还包括对所述基本信息进行过滤,并将过滤后的基本信息存储在所述大数据平台中。3.如权利要求1所述的大数据平台的监控方法,其特征在于,所述方法还包括:接收告警事件;根据预设时间周期、所述告警事件的状态和所述告警事件的时间顺序确定所述告警事件的队列,所述队列包括第一队列和第二队列,所述第一队列的优先级高于所述第二队列;若所述第二队列中的告警事件为所述第一队列中告警事件所引发,则将所述第二队列中的告警事件进行收敛,并将所述第一队列中位于同一告警链路的告警事件进行聚合后进行发送,若所述第二队列中的告警事件不为所述第一队列中告警事件所引发,则将所述第一队列中位于同一告警链路中的告警事件进行聚合后发送,并将所述第二队列中位于同一告警链路中的告警事件进行聚合后发送。4.如权利要求1所述的大数据平台的监控方法,其特征在于,所述方法还包括对所述异常信息进行定期清理。5.一种大数据平台的监控装置,其特征在于,所述装置包括获...
【专利技术属性】
技术研发人员:张文培,
申请(专利权)人:上海中通吉网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。