基于大数据技术的智能化运营日志自动采集分析方法技术

技术编号：41227841 阅读：2 留言：0更新日期：2024-05-09 23:45

本发明专利技术涉及一种基于大数据技术的智能化运营日志自动采集分析系统及分析方法，包括日志采集模块，日志传输模块，日志存储模块，日志分析模块。本发明专利技术基于大数据技术的智能化运营日志自动采集分析方法，构建了以多个分布式集群为基础,数据源层、存储层、计算层相互融合的体系结构,构建并实现了运营能力数据转码、日志传输、自动识别新文件的产生、数据查询的功能，运营能力数据转码对于GBK格式编码的运营能力数据进行格式转换；运营能力数据传输提供从不同终端到储存系统的数据收集、聚合和移动，自动识别新文件的产生,实现不同模块之间完成通信加载数据功能，能够快速处理大量数据，并提供实时的数据分析结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，具体的说，是涉及一种基于大数据技术的智能化运营日志自动采集分析方法。

技术介绍

1、随着大数据时代的来临,网络数据呈现爆炸式增长,idc数据表明,全球企业数据正以62％的速度逐年增长,大量数据当中隐藏着巨大的商业价值,引起了企业的广泛关注。然而,大数据给数据的同步、存储、和数据统计分析带来了一定的问题和困难。

2、analyseplugin：支持正则表达式或转义模式搜索日志，并为每个搜索设置不同颜色。搜索结果将按照与原点相同的顺序存储在固定窗口中。

3、logfileanalyser：一款比较实用的日志文件解析软件，可以快速找到系统出错日志的问题所在，及时做出调整，有效的解决网站出现的各种问题。

4、现有技术存在哪些缺陷和不足：

5、1.大数据量，随着系统规模的增大，日志文件的大小和数量也会呈指数级增长，给解析和分析带来了挑战，传统的日志分析工具无法满足大数据量的日志分析。

6、2.多样性，不同的系统和应用程序可能采用不同的日志格式和结构，导致解析和分析的复杂性增加，一个日志分析工具无法满足不同格式和结构的日志同步进行日志分析。

7、3.实时性，某些场景下，对日志文件的实时解析和分析是必要的，例如安全监控等，传统的日志分析工具无法满足日志的实时解析和分析。

技术实现思路

1、针对上述现有技术中的不足，解决现有的工具无法有效的处理大量数据的问题，本专利技术提供一种支持多用户访问和查询，方便多

2、本专利技术所采取的技术方案是：

3、一种基于大数据技术的智能化运营日志自动采集分析系统，包括：

4、日志采集模块，通过shell脚本模拟生产环境下日志产生过程，利用时间字符串定义初始文件的名字，将日志按照一定的时间间隔进行传输；

5、日志传输模块，通过日志采集、聚合和传输的系统flume将日志传输到分布式发布订阅消息系统kafka；

6、日志存储模块，通过分布式文件系统hdfs存储日志数据；

7、日志分析模块，采用flume+kafka架构进行数据分析。

8、一种基于大数据技术的智能化运营日志自动采集分析方法，包括如下步骤：

9、步骤1，日志的采集；

10、通过shell脚本模拟生产环境下日志产生过程，利用时间字符串定义初始文件的名字，将日志按照一定的时间间隔进行传输；

11、步骤2，日志传输到分布式发布订阅消息系统kafka；

12、文件传输到分布式发布订阅消息系统kafka的过程使用日志采集、聚合和传输的系统flume实现；

13、flume的配置文件中使用spooldirectorysource实现，定义type为spooldir，指定数据输入路径spooldir，实现文件输入；

14、用户查询日志采用gbk编码格式，通过修改spooldirectorysource-configurationconstants参数，定义inputcharset配置项为gbk，实现gbk编码格式的文件输入；

15、flume的source端输出使用out-putcharset配置项定义文件输出格式；

16、从flumed的source传输到channel时，为了使日志按时间格式显示文件名，通过将文件名信息传递到kafka由其依据名称生成目标目录的方式实现；利用flume的event中的header传递文件名信息时，定义键值目录结构为a/b/c；相关的配置项为fileheader和fileheader-key；定义fileheaderkey的值为key；最终实现带着目录结构的数据文件缓存到kafka。

17、步骤3，日志数据采用分布式文件系统hdfs存储；

18、kafka到hdfs数据的持久化，通过自定义kafkacon-sumer来实现；

19、用户查询日志进入集群时，hdfsclient负责切分文件，与namenode交互，获取文件位置信息；与datanode交互，读取和写入数据；namenode是m主节点，管理hdfs的名称空间和数据块映射信息，配置副本策略，处理客户端请求；

20、datanode是从节点，存储实际的数据，汇报存储信息给nmaenode；

21、secodarynamenode辅助namenode分担其工作量；定期合并fsimage和fsedits，推送给namenode；紧急情况下，可辅助恢复namenode；

22、通过获取消息体中每条消息的key，获取日期字符串；然后将数据存入相应位置；

23、文件传输完毕之后重命名为.done结尾，作为文件传输完毕的识别标志。定义输出流时开启独立的线程将内存中的数据刷写到hdfs，减少数据的丢失实现数据在hdfs的固化；

24、步骤4，日志数据分析

25、分布式文件系统hdfs数据输入到数据仓库工具hive，通过定义输入文件路径和指定hivetable两个参数，取出输入目录下结尾是.done的文件，解析出时间参数加载到数据仓库工具hive。

26、本专利技术相对现有技术的有益效果：

27、本专利技术基于大数据技术的智能化运营日志自动采集分析方法，在对系统进行需求分析的基础上，构建了以多个分布式集群为基础,数据源层、存储层、计算层相互融合的体系结构,构建并实现了运营能力数据转码、日志传输、自动识别新文件的产生、数据查询的功能，运营能力数据转码对于gbk格式编码的运营能力数据进行格式转换；运营能力数据传输提供从不同终端到储存系统的数据收集、聚合和移动，以便模拟生产环境中数据实时产生的过程；自动识别新文件的产生,实现不同模块之间完成通信加载数据功能。

28、1、高可用性：通过多个分布式集群的组合，实现高可用性的服务部署，即使某个节点发生故障，也不会影响整个服务的正常运行。

29、2、可扩展性：多个分布式集群可以水平扩展来提升服务性能，满足不同量级的用户请求。

30、3、数据一致性：分布式集群通过数据复制和副本机制保证数据的一致性，避免了单点故障和数据不一致的问题。

31、4、数据安全性：多个分布式集群通过加密和访问控制机制保证数据的安全性，避免数据泄露和篡改的风险。

32、5、管理和维护：分布式集群体系结构通过自动化工具和流程来实现对各个节点的监控和管理，减少人工干预和维护的成本。

本文档来自技高网...

【技术保护点】

1.一种基于大数据技术的智能化运营日志自动采集分析系统，其特征在于，包括：

2.一种基于大数据技术的智能化运营日志自动采集分析方法，其特征在于包括如下步骤：

【技术特征摘要】

1.一种基于大数据技术的智能化运营日志自动采集分析系统，其特征在于，包括：

<...

【专利技术属性】
技术研发人员：何治平，
申请(专利权)人：北京天易数智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人