日志的流式计算系统技术方案

技术编号:20566538 阅读:19 留言:0更新日期:2019-03-14 09:22
本发明专利技术提供了一种日志的流式计算系统,包括:日志采集工具,用于对日志进行实时采集,并将采集到的日志消息发送到第一级kafka系统中;所述第一级kafka系统,用于对接收到的日志消息进行存储,并将所述日志消息发送到流式处理框架Flink;所述Flink,用于对所述日志消息进行过滤得到不同主题的日志消息,并将不同主题的日志消息发送第二级kafka系统中;所述第二级kafka系统,用于将不同主题的日志消息发送不同的系统中存储。通过本发明专利技术,解决了相关技术中Apache Flume工程架构对于日志的处理速度慢的问题。

Flow Computing System for Logs

The present invention provides a flow computing system for logs, including: a log acquisition tool for real-time collection of logs and sending collected log messages to a first-level Kafka system; a first-level Kafka system for storing received log messages and sending the log messages to a flow processing framework Flink; and a Flink for the first-level Kafka system. The log messages are filtered to get the log messages of different topics, and the log messages of different topics are sent to the second-level Kafka system, which is used to store the log messages of different topics in different systems. The invention solves the problem of slow processing speed of Apache Flume engineering architecture for log in related technology.

【技术实现步骤摘要】
日志的流式计算系统
本专利技术涉及计算领域,具体而言,涉及一种日志的流式计算系统。
技术介绍
相关技术中对于日志的采集,一般使用ApacheFlume日志采集工具采集数据,根据采集到的数据进行相应的计算与处理。而对于日志的及时性保障,一般采用大数据框架ApacheSpark对收集到的数据进行流式计算,通过内存计算来突破IO瓶颈。可见,相关技术中采用ApacheFlume工程架构收集日志并直接推送用于进行流式处理。但是,相关技术中的ApacheFlume工程架构对于日志的采集并不及时,难以避免对异常情况的早发现和早修复;另外ApacheFlume工程架构对于日志的处理速度也是比较慢的,会导致处理时间滞后。针对相关技术中的上述问题,目前尚未存在有效的解决方案。
技术实现思路
本专利技术实施例提供了一种日志的流式计算系统,以至少解决相关技术中ApacheFlume工程架构对于日志的处理速度慢的问题。根据本专利技术的一个方面,1.一种日志的流式计算系统,包括:日志采集工具,用于对日志进行实时采集,并将采集到的日志消息发送到第一级kafka系统中;所述第一级kafka系统,用于对接收到的日志消息进行存储,并将所述日志消息发送到流式处理框架Flink;所述Flink,用于对所述日志消息进行过滤得到不同主题的日志消息,并将不同主题的日志消息发送第二级kafka系统中;所述第二级kafka系统,用于将不同主题的日志消息发送不同的系统中存储。可选地,所述日志采集工具对日志进行实时采集的方式包括:日志发现、日志聚合、配置热发。可选地,所述日志采集工具,还用于即时开启或停止日志消息的采集操作。可选地,所述第一级kafka系统对接收到的日志消息进行存储的方式包括:所述第一级kafka系统采用offset对所述日志消息进行回放。可选地,所述Flink对所述日志消息进行过滤得到不同主题的日志消息的方式包括:所述Flink采用单条记录计算的方式和时间窗口聚合计算的方式对所述日志消息进行计算,得到对应主题的日志消息。可选地,时间窗口聚合计算方式包括:滚动窗口计算方式、滑动窗口计算方式。可选地,用于存储所述第二级kafka系统发送的不同主题的日志消息的系统包括:mysql、ElasticSearh、hive数据仓库、第三级kafka系统。通过本专利技术,日志采集工具,用于对日志进行实时采集,并将采集到的日志消息发送到第一级kafka系统中;第一级kafka系统,用于对接收到的日志消息进行存储,并将日志消息发送到流式处理框架Flink;Flink,用于对日志消息进行过滤得到不同主题的日志消息,并将不同主题的日志消息发送第二级kafka系统中;第二级kafka系统,用于将不同主题的日志消息发送不同的系统中存储,从而解决了相关技术中ApacheFlume工程架构对于日志的处理速度慢的问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的日志的流式计算系统的结构框图;图2是根据本专利技术实施例的流式计算系统结构框图。具体实施方式下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。首先,对本申请的专利技术目的进行说明:系统的日志是监控系统运行状态是否正常的集中体现,在实际的工程应用中会面临以下问题:(1)及时性,需要对最新的日志进行分析计算。只有获取最新的日志,通过计算分析之后才能得到最新的结果。通过这个结果可以更加及时地检测到系统的运行状态如何,在运行异常的情况下能够早发现,早修复。(2)计算能力,计算的速度要达到一定程度。只有计算的速度够快,更快地计算出相应的结果,才能把这个结果发送出去。否则,即使拿到最新的日志,由于计算速度太慢,导致时间滞后,不能及时地发现问题。(3)工程架构,一个好的工程架构要满足高内聚低耦合。满足上述关系可以降低软件的开发与维护成本,否则会导致开发难度递增,维护成本增加。甚至会难以把控,导致成本爆炸。针对上述提到的问题,下面将结合本申请的实施例进行解决,实施例1本专利技术提供了一种日志的流式计算系统,图1是根据本专利技术实施例的日志的流式计算系统的结构框图,如图1所示,该系统包括:日志采集工具12,用于对日志进行实时采集,并将采集到的日志消息发送到第一级kafka系统中;第一级kafka系统14,与日志采集工具12耦合链接,用于对接收到的日志消息进行存储,并将日志消息发送到流式处理框架Flink;Flink16,与第一级kafka系统14耦合链接,用于对日志消息进行过滤得到不同主题的日志消息,并将不同主题的日志消息发送第二级kafka系统中;第二级kafka系统18,与Flink16耦合链接,用于将不同主题的日志消息发送不同的系统中存储。需要说明的是,本实施例中涉及到的日志采集工具对日志进行实时采集的方式包括:日志发现、日志聚合、配置热发。基于上述采集的方式,本实施例中的日志采集工具,还用于即时开启或停止日志消息的采集操作。在本实施例的可选实施方式中,本实施例中的第一级kafka系统对接收到的日志消息进行存储的方式包括:第一级kafka系统采用offset对日志消息进行回放。在本实施例的另一个可选实施方式中,Flink对日志消息进行过滤得到不同主题的日志消息的方式包括:Flink采用单条记录计算的方式和时间窗口聚合计算的方式对日志消息进行计算,得到对应主题的日志消息。需要说明的是,本实施例中涉及到的时间窗口聚合计算方式包括:滚动窗口计算方式、滑动窗口计算方式。以及,用于存储第二级kafka系统发送的不同主题的日志消息的系统包括:mysql、ElasticSearh、hive数据仓库、第三级kafka系统。下面结合本实施例的具体实施方式对本实施例进行举例说明;本可选实施方式提供了一种基于实时日志的流式计算系统,图2是根据本专利技术实施例的流式计算系统结构框图,基于图2,本可选实施方式中日志的流式计算包括以下几个部分:日志的采集,使用ApacheFlume日志采集工具实时地采集数据,根据采集到的数据进行相应的计算与处理。其中,采用日志采集工具对日志进行实时采集,该工具基于ApacheFlume改进,能够支持日志发现,日志聚合,以及配置热发等实用功能。并且可以随时开启/停止日志收集。并将采集到的日志消息直接生产到kafka中,kafka具备高吞吐量,高可靠性以及高可用性。利用offset可以回放数据,理论上消息不会丢失。日志的及时性保障,采用大数据框架ApacheSpark对收集到的数据进行流式计算,通过内存计算来突破IO瓶颈。其中,使用了流式处理框架Flink,它的性能更优于ApacheSpark。Flink支持单条记录计算以及时间窗口聚合计算,其中时间窗口聚合计算可以根据需要选择使用滚动窗口或滑动窗口。并且窗口支持key方式聚合,扩展成多窗口并行计算,极大地提升了系统的性能。工程架构,ApacheFlume收集本文档来自技高网...

【技术保护点】
1.一种日志的流式计算系统,其特征在于,包括:日志采集工具,用于对日志进行实时采集,并将采集到的日志消息发送到第一级kafka系统中;所述第一级kafka系统,用于对接收到的日志消息进行存储,并将所述日志消息发送到流式处理框架Flink;所述Flink,用于对所述日志消息进行过滤得到不同主题的日志消息,并将不同主题的日志消息发送第二级kafka系统中;所述第二级kafka系统,用于将不同主题的日志消息发送不同的系统中存储。

【技术特征摘要】
1.一种日志的流式计算系统,其特征在于,包括:日志采集工具,用于对日志进行实时采集,并将采集到的日志消息发送到第一级kafka系统中;所述第一级kafka系统,用于对接收到的日志消息进行存储,并将所述日志消息发送到流式处理框架Flink;所述Flink,用于对所述日志消息进行过滤得到不同主题的日志消息,并将不同主题的日志消息发送第二级kafka系统中;所述第二级kafka系统,用于将不同主题的日志消息发送不同的系统中存储。2.根据权利要求1所述的系统,其特征在于,所述日志采集工具对日志进行实时采集的方式包括:日志发现、日志聚合、配置热发。3.根据权利要求1或2所述的系统,其特征在于,所述日志采集工具,还用于即时开启或停止日志消息的采集操作。4.根据权利要求...

【专利技术属性】
技术研发人员:刘浩叶礼伟张光银
申请(专利权)人:北京趣拿软件科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1