本发明专利技术提供一种日志分布式采集分析系统及方法,包括:日志采集模块,接收并获取日志数据;日志传输存储模块,将日志数据传输至存储系统;日志索引模块,基于分布式搜索引擎建立索引;日志分析模块,基于流式大数据处理框架,分析处理待搜索的日志数据,生成数据异常评估曲线图,利用滤波算法对数据异常评估曲线图中的曲线数据进行平滑处理,识别获取基准线;筛选告警模块,在构建的数据计算模型中,生成正常范围区间值,将各个时间窗口下的异常指数与正常范围区间值做出对比,根据对比结果做出相应的动作。该系统及方法可及时地从日志分析中获取故障或异常发生的时间戳和对应的日志数据内容,便于快速定位异常点,并做出预警响应动作和策略。
【技术实现步骤摘要】
本专利技术涉及日志数据处理,特别涉及一种日志分布式采集分析系统及方法。
技术介绍
1、日志对负责运维工作的技术人员来说,是一个熟悉的名词,机房中的各种系统、服务器以及网络设备都在不断产生日志,当系统出现故障,有安全入侵和渗透攻击发生时,利用健全的日志记录和分析系统是系统正常运营优化及安全事故响应的基础,而日志管理在企业价值提升的过程中无疑扮演着一个极为关键的角色。
2、现有申请公布号为cn106354765a,名称为一种基于分布式采集的日志分析系统的专利中指出的技术方案包括:日志文件收集应用模块、日志接收应用集群模块、分布式日志存储模块和zookeeper注册中心集群模块,此外,本专利技术还公开了一种基于分布式采集的日志分析方法,通过本专利技术提升了日志处理层和日志存储层的水平扩展能力,同时利用线程隔离原理通过对每次请求生成请求标识做到对跨服务调用日志的分组,清晰定位服务调用过程中的数据日志流转以及异常详情,然而该系统虽然也能定位到异常点,但其并不能对异常点进行准确和高效的识别。
3、结合上述专利和现有技术,在对日志数据进行采集和分析过程中,例如:在对网络服务器产生的日志数据进行分析时,采用传统的日志分析系统对于异常的识别准确性有一定的局限性,由于数据量较大且不是实时分析,可能会导致部分异常点无法被准确识别,延误故障处理或安全预警,同时传统的日志分析系统通常需要存储大量的原始日志数据,并进行复杂的处理和查询,这会消耗大量的计算资源和存储空间,导致系统效率降低,从而进一步降低对于异常识别的准确性。
<
br/>技术实现思路
1、本专利技术所要解决的技术问题是提供一种日志分布式采集分析系统及方法,可及时地从日志分析中获取故障或异常发生的时间戳和对应的日志数据内容,便于快速定位异常点,并做出预警响应动作和策略。
2、为解决上述技术问题,本专利技术所采用的技术方案是:一种日志分布式采集分析系统,该系统包括:
3、日志采集模块,接收并获取日志数据;
4、日志传输存储模块,对获取的日志数据传输至存储系统;
5、日志索引模块,基于分布式搜索引擎建立索引;
6、日志分析模块,基于流式大数据处理框架,分析处理待搜索的日志数据,获取并依据每个时间窗口对应的异常指数aint,生成数据异常评估曲线图,并利用滤波算法对数据异常评估曲线图中的曲线数据进行平滑处理,识别获取基准线,基准线对应的异常基准值为aol;
7、筛选告警模块,在构建的数据计算模型中,依据预设的异常评估阈值δa与异常基准值aol,生成正常范围区间值[aol-δa,aol+δa],并将各个时间窗口下的异常指数aint与正常范围区间值做出对比,根据对比结果做出相应的动作。
8、优选的方案中,所述日志采集模块获取日志数据的来源包括但不限于操作系统、业务系统、服务器以及网络设备。
9、优选的方案中,所述日志索引模块的分布式搜索引擎为elasticsearch,通过索引进行日志搜索和查询时,使用的索引策略包括时间戳索引、关键字索引以及唯一标识索引;其中,时间戳索引根据日志事件的时间戳进行索引,通过使用时间范围进行分片,将不同时间段的日志数据归属于不同的索引分片;关键字索引根据关键字、标签或字段进行索引,使用根据关键字快速定位相关日志,使用倒排索引的方式,将关键字映射到对应的日志记录;唯一标识索引为每条日志记录分配一个唯一标识,并将其作为索引的一部分。
10、优选的方案中,所述日志分析模块基于的流式大数据处理框架采用sparkstreaming,日志分析模块分析处理待搜索日志数据的具体过程为:
11、使用spark streaming提供的窗口操作功能,对流入的日志数据进行聚合操作,以时间窗口为单位,获取每个时间窗口中的异常数据集,在构建的异常分析模型中,依据异常数据集,生成每个时间窗口对应的异常指数aint,其中,t=1、2、…、n,n为正整数,n为时间窗口的数量,t表示按照时间顺序上,每个时间窗口的编号。
12、优选的方案中,每个时间窗口中的异常数据集均包括响应时间tr、触发事件数量sn、错误码出现次数cs以及流量分布差值lc;
13、响应时间tr:每个时间窗口内请求的最大响应时间;触发事件数量sn:在预先构建的规则引擎中,统计每个时间窗口内特定事件发生的数量,且特定事件包括登录失败次数和异常登录次数;错误码出现次数cs:统计每个时间窗口内不同错误码出现的次数,并提取同一错误码出现错误次数的最大值;流量分布差值lc:计算每个时间窗口内的流量分布情况,即不同url的请求分布,计算最大url流量值与最小url流量值之间的差值,即为流量分布差值lc。
14、优选的方案中,生成每个时间窗口对应异常指数aint的过程如下:
15、s1、对同一时间窗口中的异常数据集进行无量纲化处理;
16、s2、依据经过处理后的异常数据集,生成对应时间窗口的异常指数aint,公式如下:
17、
18、式中,α为响应时间tr的预设比例系数,β为触发事件数量sn的预设比例系数,γ为错误码出现次数cs的预设比例系数,δ为流量分布差值lc的预设比例系数,且α>β>γ>δ>0;g为常数修正系数;e为自然常数。
19、优选的方案中,所述筛选告警模块将各个时间窗口下的异常指数aint与正常范围区间值做出对比,得到的对比结果如下:
20、若是对应时间窗口下的异常指数aint位于正常范围区间值[aol-δa,aol+δa]内,则表示日志数据在该时间窗口下状态正常,不做响应动作;若是对应时间窗口下的异常指数aint位于正常范围区间值[aol-δa,aol+δa]外,则表示日志数据在该时间窗口下的状态异常,发出预警信号,执行定位策略:依据状态异常的时间编号所属的时间窗口,定位状态异常的时间范围,并检查该时间范围内对应的日志数据。
21、基于上述的日志分布式采集分析系统的日志分布式采集分析方法,包括如下步骤:
22、步骤一、接收并获取日志数据;
23、其中,获取日志数据的来源包括但不限于操作系统、业务系统、服务器以及网络设备;
24、步骤二、对获取的日志数据传输至存储系统;
25、其中,对日志数据进行传输时使用消息队列中间件,包括apache kafka和rabbitmq,使用的存储系统为对象存储系统,包括hdfs或s3;
26、步骤三、基于分布式搜索引擎建立索引;
27、其中,分布式搜索引擎为elasticsearch,通过索引进行日志搜索和查询时,使用的索引策略包括时间戳索引、关键字索引以及唯一标识索引;
28、步骤四、基于流式大数据处理框架,分析处理待搜索的日志数据,获取并依据每个时间窗口对应的异常指数aint,生成数据异常评估曲线图,并利用滤波算法对数据异常评估曲线图中的曲线数据进行平滑处理,识别获取基准线,本文档来自技高网
...
【技术保护点】
1.一种日志分布式采集分析系统,其特征在于,该系统包括:
2.根据权利要求1所述的一种日志分布式采集分析系统,其特征在于,所述日志采集模块获取日志数据的来源包括但不限于操作系统、业务系统、服务器以及网络设备。
3.根据权利要求1所述的所述的一种日志分布式采集分析系统,其特征在于,所述日志索引模块的分布式搜索引擎为Elasticsearch,通过索引进行日志搜索和查询时,使用的索引策略包括时间戳索引、关键字索引以及唯一标识索引;其中,时间戳索引根据日志事件的时间戳进行索引,通过使用时间范围进行分片,将不同时间段的日志数据归属于不同的索引分片;关键字索引根据关键字、标签或字段进行索引,使用根据关键字快速定位相关日志,使用倒排索引的方式,将关键字映射到对应的日志记录;唯一标识索引为每条日志记录分配一个唯一标识,并将其作为索引的一部分。
4.根据权利要求1所述的一种日志分布式采集分析系统,其特征在于,所述日志分析模块基于的流式大数据处理框架采用Spark Streaming,日志分析模块分析处理待搜索日志数据的具体过程为:
5.根据权利要求4所述的一种日志分布式采集分析系统,其特征在于,每个时间窗口中的异常数据集均包括响应时间Tr、触发事件数量Sn、错误码出现次数Cs以及流量分布差值Lc;
6.根据权利要求4所述的一种日志分布式采集分析系统,其特征在于,生成每个时间窗口对应异常指数Aint的过程如下:
7.根据权利要求1所述的一种日志分布式采集分析系统,其特征在于,所述筛选告警模块将各个时间窗口下的异常指数Aint与正常范围区间值做出对比,得到的对比结果如下:
8.基于权利要求1~7任一项所述的日志分布式采集分析系统的日志分布式采集分析方法,其特征在于,包括如下步骤:
...
【技术特征摘要】
1.一种日志分布式采集分析系统,其特征在于,该系统包括:
2.根据权利要求1所述的一种日志分布式采集分析系统,其特征在于,所述日志采集模块获取日志数据的来源包括但不限于操作系统、业务系统、服务器以及网络设备。
3.根据权利要求1所述的所述的一种日志分布式采集分析系统,其特征在于,所述日志索引模块的分布式搜索引擎为elasticsearch,通过索引进行日志搜索和查询时,使用的索引策略包括时间戳索引、关键字索引以及唯一标识索引;其中,时间戳索引根据日志事件的时间戳进行索引,通过使用时间范围进行分片,将不同时间段的日志数据归属于不同的索引分片;关键字索引根据关键字、标签或字段进行索引,使用根据关键字快速定位相关日志,使用倒排索引的方式,将关键字映射到对应的日志记录;唯一标识索引为每条日志记录分配一个唯一标识,并将其作为索引的一部分。
4.根据...
【专利技术属性】
技术研发人员:周保红,刘帅,张玉松,杨锦辉,刘道君,杨洋,赵海波,蒋明,
申请(专利权)人:中国长江电力股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。